WO2024117792A1 - 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법 - Google Patents

세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법 Download PDF

Info

Publication number
WO2024117792A1
WO2024117792A1 PCT/KR2023/019488 KR2023019488W WO2024117792A1 WO 2024117792 A1 WO2024117792 A1 WO 2024117792A1 KR 2023019488 W KR2023019488 W KR 2023019488W WO 2024117792 A1 WO2024117792 A1 WO 2024117792A1
Authority
WO
WIPO (PCT)
Prior art keywords
nucleic acid
cancer
acid fragment
size
frequency
Prior art date
Application number
PCT/KR2023/019488
Other languages
English (en)
French (fr)
Inventor
조은해
이태림
Original Assignee
주식회사 지씨지놈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220162987A external-priority patent/KR20240087868A/ko
Application filed by 주식회사 지씨지놈 filed Critical 주식회사 지씨지놈
Publication of WO2024117792A1 publication Critical patent/WO2024117792A1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Definitions

  • the present invention relates to a method for diagnosing cancer and predicting cancer types using the frequency and size of terminal sequence motifs of cell-free nucleic acid fragments. More specifically, the present invention relates to a method for extracting nucleic acids from biological samples, obtaining sequence information, and aligning nucleic acids based on reads. Cancer diagnosis and carcinoma type using a method of deriving the terminal sequence motif frequency of the fragment and the size of the nucleic acid fragment, generating and post-processing this as vectorized data, and then inputting it into a learned artificial intelligence model to analyze the calculated value. It's about prediction methods.
  • Cancer diagnosis in clinical practice is usually confirmed by performing a tissue biopsy after medical history, physical examination, and clinical evaluation. Cancer diagnosis through clinical testing is possible only when the number of cancer cells is more than 1 billion and the diameter of the cancer is more than 1 cm. In this case, the cancer cells already have the ability to metastasize, and at least half of them have already metastasized.
  • tissue biopsy is invasive, causing considerable discomfort to the patient, and there are problems in that tissue biopsy often cannot be performed while treating cancer patients.
  • tumor markers are used in cancer screening to monitor substances produced directly or indirectly from cancer. However, even when cancer is present, more than half of the tumor marker screening results are normal, and even when cancer is not present, they are often positive. However, there are limits to its accuracy.
  • liquid biopsy is a recent method of using patient body fluids for cancer diagnosis and follow-up tests. (liquid biopsy) is widely used.
  • Liquid biopsy is a non-invasive method and is a diagnostic technology that is attracting attention as an alternative to existing invasive diagnosis and testing methods.
  • an artificial neural network refers to a computational model implemented in software or hardware that imitates the computational ability of a biological system using a large number of artificial neurons connected by connection lines.
  • Artificial neural networks use artificial neurons that simplify the functions of biological neurons. And, they are connected to each other through connection lines with connection strength to perform human cognitive functions or learning processes. Connection strength is a specific value that a connection line has, and is also called connection weight.
  • Learning of artificial neural networks can be divided into supervised learning and unsupervised learning.
  • Supervised learning is a method of putting input data and corresponding output data together into a neural network and updating the connection strength of the connection lines so that output data corresponding to the input data is output.
  • Representative learning algorithms include Delta Rule and Back Propagation Learning.
  • Unsupervised learning is a method in which an artificial neural network learns connection strengths on its own using only input data without a target value.
  • Unsupervised learning is a method of updating connection weights based on correlations between input patterns.
  • the present inventors have made diligent efforts to solve the above problems and develop an artificial intelligence-based cancer diagnosis and cancer prediction method with high sensitivity and accuracy, based on the terminal sequence motif of the cell-free nucleic acid fragment and the length information of the nucleic acid fragment.
  • vectorized data is generated and analyzed with a learned artificial intelligence model, it was confirmed that cancer diagnosis and cancer type prediction can be made with high sensitivity and accuracy, and the present invention was completed.
  • the purpose of the present invention is to provide a method for diagnosing cancer and predicting cancer types using cell-free nucleic acid fragment terminal sequence motif frequency and size.
  • Another object of the present invention is to provide a cancer diagnosis and cancer type prediction device using cell-free nucleic acid fragment terminal sequence motif frequency and size.
  • Another object of the present invention is to provide a computer-readable storage medium including instructions configured to be executed by a processor for diagnosing cancer and predicting cancer type by the above method.
  • the present invention includes the steps of (a) extracting nucleic acids from a biological sample and obtaining sequence information; (b) aligning the obtained sequence information (reads) to a standard chromosome sequence database (reference genome database); (c) deriving the frequency of terminal sequence motifs of nucleic acid fragments and the size of the nucleic acid fragments using the aligned sequence information (reads); (d) generating vectorized data using the terminal sequence motif frequency of the derived nucleic acid fragment and the size of the nucleic acid fragment; (e) post-processing the vectorized data; (f) inputting the post-processed data into a learned artificial intelligence model and comparing the analyzed output result with a cut-off value to determine the presence or absence of cancer; and (g) predicting the type of cancer by comparing the output results.
  • the present invention also includes the steps of (a) extracting nucleic acids from a biological sample and obtaining sequence information; (b) aligning the obtained sequence information (reads) to a standard chromosome sequence database (reference genome database); (c) deriving the frequency of terminal sequence motifs of nucleic acid fragments and the size of the nucleic acid fragments using the aligned sequence information (reads); (d) generating vectorized data using the terminal sequence motif frequency of the derived nucleic acid fragment and the size of the nucleic acid fragment; (e) post-processing the vectorized data; (f) inputting the post-processed data into a learned artificial intelligence model and comparing the analyzed output result with a cut-off value to determine the presence or absence of cancer; and (g) predicting cancer type by comparing the output results.
  • the present invention also includes a decoding unit that extracts nucleic acids from biological samples and decodes sequence information; an alignment unit that aligns the translated sequences with a standard chromosome sequence database; A nucleic acid fragment analysis unit that derives the terminal sequence motif frequency of the nucleic acid fragment and the size of the nucleic acid fragment based on the aligned sequence; A data generation unit that generates vectorized data using the terminal sequence motif frequency of the derived nucleic acid fragment and the size of the nucleic acid fragment and then performs post-processing; A cancer diagnosis unit that inputs the generated post-processed vectorized data into a learned artificial intelligence model to analyze it and determines the presence or absence of cancer by comparing it with a reference value; and a cancer type prediction unit that predicts cancer type by analyzing the output results.
  • a decoding unit that extracts nucleic acids from biological samples and decodes sequence information
  • an alignment unit that aligns the translated sequences with a standard chromosome sequence database
  • a nucleic acid fragment analysis unit
  • the present invention also provides a computer-readable storage medium, comprising instructions configured to be executed by a processor for diagnosing cancer and predicting cancer types, comprising: (a) extracting nucleic acids from a biological sample to obtain sequence information; (b) aligning the obtained sequence information (reads) to a standard chromosome sequence database (reference genome database); (c) deriving the frequency of terminal sequence motifs of nucleic acid fragments and the size of the nucleic acid fragments using the aligned sequence information (reads); (d) generating vectorized data using the terminal sequence motif frequency of the derived nucleic acid fragment and the size of the nucleic acid fragment; (e) post-processing the vectorized data; (f) inputting the post-processed data into a learned artificial intelligence model and comparing the analyzed output result with a cut-off value to determine the presence or absence of cancer; and (g) computer-readable storage for cancer diagnosis and cancer type prediction, including instructions configured to be executed by a processor for diagnosing cancer and predicting cancer type through the step
  • Figure 1 is an overall flow chart for performing the cancer diagnosis and cancer type prediction method using the cell-free nucleic acid fragment terminal sequence motif frequency and size of the present invention.
  • Figure 2 is an example of a process for selecting a motif that has a difference in expression frequency between healthy people and cancer patients, or each cancer type, in an embodiment of the present invention.
  • Figure 3 is a graph confirming the size distribution of nucleic acid fragments selected in an example of the present invention.
  • the left panel of Figure 4 is an example of the FEMS table produced in one embodiment of the present invention prepared with a single nucleic acid fragment, and the right panel is an example prepared with all nucleic acid fragments.
  • the left panel of Figure 5 is an example of a FEMS table created by additionally performing an edge summary in one embodiment of the present invention, and the right panel is a visualization result.
  • Figure 6 is a diagram explaining the difference in frequency values for each section of the FEMS table produced in one embodiment of the present invention.
  • Figure 7 is a schematic diagram showing the manufacturing process of the FEMS_Z table manufactured in one embodiment of the present invention.
  • Figure 8 is a visualization example of the FEMS table created based on data from healthy people and neuroblastoma patients used in an embodiment of the present invention and the FEMS_Z table constructed through standardization work.
  • Figure 9 shows the results of comparing the performance of a CNN model using the FEMS table constructed in an embodiment of the present invention and a CNN model using the FEMS_Z table.
  • Figure 10 shows the actual patient analysis results of the CNN model using the FEMS table and the CNN model using the FEMS_Z table constructed in an embodiment of the present invention.
  • Figure 11 is a schematic diagram showing the configuration of a CNN model built in an embodiment of the present invention.
  • first, second, A, B, etc. may be used to describe various components, but the components are not limited by the terms, and are only used for the purpose of distinguishing one component from other components. It is used only as For example, a first component may be named a second component without departing from the scope of the technology described below, and similarly, the second component may also be named a first component.
  • the term and/or includes any of a plurality of related stated items or a combination of a plurality of related stated items.
  • each component is responsible for. That is, two or more components, which will be described below, may be combined into one component, or one component may be divided into two or more components for more detailed functions.
  • each of the components described below may additionally perform some or all of the functions handled by other components, and some of the main functions handled by each component may be performed by other components. Of course, it can also be carried out exclusively by .
  • each process that makes up the method may occur in a different order from the specified order unless a specific order is clearly stated in the context. That is, each process may occur in the same order as specified, may be performed substantially simultaneously, or may be performed in the opposite order.
  • the sequence analysis data obtained from the sample is aligned to the reference genome, and then the terminal sequence motif frequency and size of the nucleic acid fragment of the nucleic acid fragment are derived based on the aligned sequence information, and the terminal sequence of the derived nucleic acid fragment is derived.
  • vectorized data is generated and post-processed using the motif frequency and size of nucleic acid fragments, and then the DPI value is calculated and analyzed from the learned artificial intelligence model, cancer diagnosis and cancer type can be predicted with high sensitivity and accuracy. I wanted to confirm that.
  • DNA extracted from blood is sequenced, aligned to a reference chromosome, and then used to derive the terminal sequence motif frequency of the nucleic acid fragment and the size of the nucleic acid fragment, and the terminal sequence of the nucleic acid fragment Create and post-process vectorized data with the motif frequency as the After performing cancer diagnosis by comparing this with the reference value, a method was developed to determine the cancer type with the highest DPI value among the DPI values output for each cancer type as the cancer type of the sample ( Figure 1).
  • (g) It relates to a method of providing information for cancer diagnosis and cancer type prediction, including the step of predicting cancer type by comparing the output results.
  • (g) It relates to a method for diagnosing cancer and predicting cancer type, including the step of predicting cancer type by comparing the output results.
  • the nucleic acid fragment can be used without limitation as long as it is a fragment of nucleic acid extracted from a biological sample.
  • it may be a fragment of cell-free nucleic acid or intracellular nucleic acid, but is not limited thereto.
  • the nucleic acid fragment can be obtained by any method known to those skilled in the art, and is preferably sequenced directly, sequenced through next-generation sequencing, or non-specific whole genome amplification. ) or obtained through probe-based sequencing, but is not limited thereto.
  • the cancer may be solid cancer or hematological cancer, and is preferably non-Hodgkin lymphoma, non-Hodgkin lymphoma, acute-myeloid leukemia, and acute lymphoblastic leukemia.
  • acute-lymphoid leukemia multiple myeloma, head and neck cancer, lung cancer, glioblastoma, neuroblastoma, colon/rectal cancer, pancreatic cancer, breast cancer, ovarian cancer, melanoma
  • It may be selected from the group consisting of prostate cancer, liver cancer, thyroid cancer, stomach cancer, gallbladder cancer, biliary tract cancer, bladder cancer, small intestine cancer, cervical cancer, cancer of unknown primary site, kidney cancer, esophageal cancer, and mesothelioma, and more preferably, nerve cancer. It may be a blastoma, but is not limited thereto.
  • the step (a) is
  • the step (a) of obtaining sequence information may be characterized by obtaining isolated cell-free DNA through whole-genome sequencing at a depth of 1 million to 100 million reads.
  • the biological sample refers to any material, biological fluid, tissue or cell obtained from or derived from an individual, for example, whole blood, leukocytes, peripheral blood mononuclear cells.
  • next-generation sequencer can be used by any sequencing method known in the art. Sequencing of nucleic acids isolated by selection methods is typically performed using next-generation sequencing (NGS). Next-generation sequencing includes any sequencing method that determines the nucleotide sequence of an individual nucleic acid molecule or a clonally expanded proxy for an individual nucleic acid molecule in a highly similar manner (e.g., when more than 105 molecules are sequenced simultaneously). do). In one embodiment, the relative abundance of a nucleic acid species in a library can be estimated by measuring the relative number of occurrences of its cognate sequence in data generated by a sequencing experiment. Next-generation sequencing methods are known in the art and described, for example, in Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46, which is incorporated herein by reference.
  • Platforms for next-generation sequencing include, but are not limited to, the Roche/454 Genome Sequencer (GS) FLX system and the Illumina/Solexa Genome Analyzer (GA). , Life/APG's Support Oligonucleotide Ligation Detection (SOLiD) system, Polonator's G. 007 system, and Helicos BioSciences' HeliScope Gene Sequencing system. and the PacBio RS system from Pacific Biosciences.
  • the length of the sequence information (reads) in step (b) is 5 to 5000 bp, and the number of sequence information used may be 50 to 5 million, but is not limited thereto.
  • the nucleic acid fragment terminal sequence motif in step (c) may be characterized as a pattern of 2 to 30 base sequences at both ends of the nucleic acid fragment.
  • Reverse strand 3 ⁇ -ATGACTGAAACCTTA-5 ⁇ (SEQ ID NO: 2)
  • TACA read in order from the forward strand 5' end
  • ATTC read in order from the reverse strand 5' end
  • the frequency of the terminal sequence motif of the nucleic acid fragment in step (c) may be characterized as the number of each motif detected in the entire nucleic acid fragment.
  • the motif frequency is calculated by counting the number of times each motif is observed in all nucleic acid fragments produced through sequencing, and the value calculated by dividing this value by the total number of nucleic acid fragments produced is the relative frequency of each motif.
  • the total number of nucleic acid fragments is 126,430,124, and the number of nucleic acid fragments for which AAAA is analyzed as a nucleic acid fragment terminal sequence motif is 125,071, so the frequency of the AAAA nucleic acid fragment terminal sequence motif is 125,071, which is The relative frequency of the terminal sequence motif of a nucleic acid fragment calculated by dividing by the total number of nucleic acid fragments is 0.00099.
  • the size of the nucleic acid fragment in step (c) may be characterized as the number of bases from the 5' end to the 3' end of the nucleic acid fragment.
  • the size of the nucleic acid fragment analyzed in SEQ ID NOs: 1 and 2 is 15.
  • the size of the nucleic acid fragment may be 1 to 10000, preferably 10 to 1000, more preferably 50 to 500, and most preferably 100 to 250. It is not limited.
  • the vectorized data in step (d) may be characterized in that the type of terminal sequence motif of the nucleic acid fragment is on the X-axis and the size of the nucleic acid fragment is on the Y-axis.
  • Reverse strand 3 ⁇ -ATGACTGATCA ... AACCTTA-5 ⁇ (SEQ ID NO: 4)
  • This nucleic acid fragment can be expressed as a two-dimensional vector like the left panel of FIG. 4, and when this process is expanded and accumulated to the entire nucleic acid fragment, a two-dimensional vector like the right panel of FIG. 4 is created.
  • the vectorized data may be characterized as additionally including the sum of the frequencies for each end motif of the nucleic acid fragment and the sum of the frequencies for each size of the nucleic acid fragment.
  • the column sum value is added four times to the bottom of the two-dimensional vector in Figure 4, and Fragment Size information that is unrelated to the Fragment End Motif is added.
  • an Edge Summary is additionally performed to add the row sum value to the rightmost part of the two-dimensional vector in FIG. 4 four times, thereby creating a two-dimensional vector like the left panel in FIG. 5.
  • the two-dimensional vector is defined as the Fragment End Motif frequency and Size (FEMS) table.
  • FEMS Fragment End Motif frequency and Size
  • step (e) may be performed by a method comprising the following steps:
  • the reference range may be -5 to 5, and the reference value may be -5 or 5.
  • the existing FEMS table is characterized by performing post-processing work to standardize the large distribution of values calculated for each area.
  • the post-processing work may be performed through the following steps:
  • the nucleic acid fragment size is 180 and AAAA Calculate the average and standard deviation of the values at position (a) with the motif and define them as Mean_180_AAAA and SD_180_AAAA, respectively.
  • iii) A step of performing Z normalization using the average and standard deviation values at each position in the FEMS table calculated in process ii) above: Specifically, the frequency value observed at the position with the AAAA motif while the nucleic acid fragment size is 180.
  • vectorized data is not limited to this, but may preferably be characterized as imaged.
  • Images are basically composed of pixels. When an image composed of pixels is vectorized, it becomes a 1-dimensional 2D vector (black and white), a 3-dimensional 2D vector (color (RGB)), or a 4-dimensional 2D vector (color (CMYK)) depending on the type of image. ) can be expressed as
  • the vectorized data of the present invention is not limited to images.
  • it can be stacked with n black and white images and used as input data for an artificial intelligence model using an n-dimensional 2D vector (multi-dimensional vector).
  • vectorized data is not limited to this, but may be characterized as a 2D table.
  • the method may further include the step of separately classifying nucleic acid fragments that satisfy the mapping quality score of the aligned nucleic acid fragments.
  • the mapping quality score may vary depending on the desired standard, but is preferably 15 to 70 points, more preferably 50 to 70 points, and most preferably 60 points.
  • the artificial intelligence model in step (f) can be used without limitation as long as it is a model that can be learned to distinguish images by cancer type, and is preferably a deep learning model.
  • the artificial intelligence model can be used without limitation as long as it is an artificial neural network algorithm that can analyze vectorized data based on an artificial neural network, but is preferably a convolutional neural network (CNN) or a deep neural network (Deep neural network). It may be characterized as being selected from the group consisting of a Neural Network (DNN) and a Recurrent Neural Network (RNN), but is not limited thereto.
  • CNN convolutional neural network
  • DNN Neural Network
  • RNN Recurrent Neural Network
  • the recurrent neural network is from the group consisting of a long-short term memory (LSTM) neural network, a gated recurrent unit (GRU) neural network, a vanilla recurrent neural network, and an attentive recurrent neural network. It may be characterized as being selected.
  • the loss function for performing binary classification can be characterized as expressed by Equation 1 below, and the loss function for performing multi-class classification can be expressed as Equation 2 below: It can be characterized as being.
  • binary classification refers to learning an artificial intelligence model to determine the presence or absence of cancer
  • multi-class classification refers to learning an artificial intelligence model to determine two or more types of cancer
  • learning when the artificial intelligence model is CNN, learning may be characterized as being performed including the following steps:
  • training data is used when learning a CNN model
  • validation data is used to verify hyper-parameter tuning
  • test data is used for performance evaluation after producing an optimal model.
  • the hyper-parameter tuning process is a process of optimizing the values of various parameters (number of convolution layers, number of dense layers, number of convolution filters, etc.) that make up the CNN model.
  • the hyper-parameter tuning process includes Bayesian optimization and grid search techniques. It can be characterized by using .
  • the learning process optimizes the internal parameters (weights) of the CNN model using set hyper-parameters, and when the validation loss compared to the training loss begins to increase, the model is judged to be overfitting, and before that, the model is judged to be overfitting. It may be characterized by a cessation of learning.
  • the result value analyzed from the vectorized data input to the artificial intelligence model in step (f) can be used without limitation as long as it is a specific score or real number, and is preferably a DPI (Deep Probability Index) value. It can be done, but it is not limited to this.
  • DPI Deep Probability Index
  • the Deep probability Index is a value expressed as a probability value by adjusting the output of the artificial intelligence to a 0 to 1 scale using the sigmoid function in the case of binary classification and the softmax function in the case of multi-class classification in the last layer of the artificial intelligence model. it means.
  • the sigmoid function is used to learn so that the DPI value is 1 in case of cancer. For example, when a breast cancer sample and a normal sample are input, the DPI value of the breast cancer sample is learned to be close to 1.
  • the softmax function is used to select a DPI value equal to the number of classes.
  • the sum of the DPI values equal to the number of classes becomes 1, and learning is performed so that the actual DPI value of the corresponding cancer type becomes 1.
  • the breast cancer class is learned close to 1.
  • the output result of step (f) may be derived for each cancer type.
  • the artificial intelligence model learns, if there is cancer, the output result is learned to be close to 1, and if there is no cancer, the output result is learned to be close to 0, and if it is 0.5 or more based on 0.5, it is judged to have cancer. , if it was less than 0.5, it was judged that there was no cancer and performance measurements were performed (training, validation, test accuracy).
  • the reference value of 0.5 is a value that can be changed at any time. For example, if you want to reduce false positives, you can set a standard higher than 0.5 to strictly determine the presence of cancer. If you want to reduce false negatives, you can set the standard value lower than 0.5 to determine if there is cancer. The criteria for determining whether something exists can be made a little weaker.
  • the standard value can be determined by checking the probability of the DPI value by applying unseen data (data for which the answer is not trained for learning) using the learned artificial intelligence model.
  • the step of predicting the cancer type through comparing the output results of step (g) is performed in a method including determining the cancer type showing the highest value among the output results as the cancer of the sample. It can be characterized as:
  • the present invention includes a decoding unit for extracting nucleic acid from a biological sample and decoding sequence information;
  • an alignment unit that aligns the translated sequences with a standard chromosome sequence database
  • a nucleic acid fragment analysis unit that derives the terminal sequence motif frequency of the nucleic acid fragment and the size of the nucleic acid fragment based on the aligned sequence
  • a data generation unit that generates vectorized data using the terminal sequence motif frequency of the derived nucleic acid fragment and the size of the nucleic acid fragment and then performs post-processing
  • a cancer diagnosis unit that inputs the generated post-processed vectorized data into a learned artificial intelligence model to analyze it and determines the presence or absence of cancer by comparing it with a reference value;
  • the present invention relates to a cancer diagnosis and cancer prediction device that includes a cancer type prediction unit that analyzes output results to predict cancer type.
  • the decoding unit includes a nucleic acid injection unit for injecting nucleic acid extracted from an independent device; and a sequence information analysis unit that analyzes sequence information of the injected nucleic acid, preferably an NGS analysis device, but is not limited thereto.
  • the decoding unit may be characterized in that it receives and decodes sequence information data generated by an independent device.
  • the present invention is a computer-readable storage medium, comprising instructions configured to be executed by a processor for diagnosing cancer and predicting cancer types,
  • a computer-readable storage medium for diagnosing cancer and predicting cancer type including instructions configured to be executed by a processor for diagnosing cancer and predicting cancer type through the step of predicting cancer type through comparing the output result values; It's about.
  • a computer includes one or more processors coupled to a chip set. Additionally, memory, storage, keyboard, graphics adapter, pointing device, and network adapter are connected to the chip set. In one implementation, the performance of the chip set is enabled by a memory controller hub and an I/O controller hub. In another implementation, the memory may be used directly connected to the processor instead of a chip set.
  • a storage device is any device that can hold data, including a hard drive, compact disk read-only memory (CD-ROM), DVD, or other memory device. Memory is responsible for data and instructions used by the processor.
  • the pointing device may be a mouse, track ball, or other type of pointing device, and is used in combination with a keyboard to transmit input data to the computer system.
  • the graphics adapter presents images and other information on a display.
  • the network adapter is connected to the computer system through a local or long-distance communication network.
  • the computer used in this institution is not limited to the above configuration, and may be missing some configuration or may include additional configuration, and may also be part of a storage area network (SAN), and the computer of this institution may be Can be configured to be suitable for execution of modules in a program for performing the method according to the present application.
  • SAN storage area network
  • a module may mean a functional and structural combination of hardware for carrying out the technical ideas according to the present application and software for driving the hardware.
  • the module may mean a logical unit of a predetermined code and a hardware resource for executing the predetermined code, and does not necessarily mean a physically connected code or a single type of hardware. is obvious to those skilled in the art.
  • Example 1 Extract DNA from blood and perform next-generation sequencing
  • the generated data set is shown in Table 2 below.
  • the terminal motif of the nucleic acid fragment is set to 4 bases (A, T, G, C), and among a total of 256 (4*4*4*4) types of motifs, there are motifs with no difference in relative frequency in the Normal / NBT group. there is. If you create a FEMS table including motifs without these differences, it becomes noise that only increases the amount of model calculations without providing meaningful information for classification. Therefore, in order to exclude these meaningless motifs, only specific motifs for which there was a significant difference in relative frequency among the three groups were selected.
  • the terminal motif of the nucleic acid fragment was set to 4 bases (A, T, G, C), and a total of 256 types (4*4*4*4) were generated.
  • some motifs that showed a statistically significant difference in relative frequency (Kruskal-wallis Test, FDR-adjust p ⁇ 0.05) between the healthy (Normal) and neuroblastoma (NBT) patient groups were selected. ( Figure 2).
  • motifs whose average frequency in the healthy group was higher than the random baseline (1/256, 0.004) were additionally selected to prevent overfitting.
  • nucleic acid fragment size selection most of the quality-confirmed nucleic acid fragments have a size in the range of 110 to 230, as shown in Figure 3, so when creating a FEMS table including areas outside this size range, most Since the area is filled with 0 values and only meaningless noise increases, the size was selected.
  • a two-dimensional vector was created by arranging the motif type on the X axis and the fragment size on the Y axis. More specifically, as shown in the left panel of Figure 4, the types and sizes of nucleic acid motifs at both ends of one nucleic acid fragment are expressed as frequencies, and these are expanded and accumulated to the entire nucleic acid fragment, as shown in Figure 4. The same two-dimensional vector was created.
  • the values that make up the FEMS table created in 3-1 are the frequencies of nucleic acid fragments with specific sizes and motifs. As shown in Figure 6, this frequency value is characterized by a large difference in the distribution of values calculated in relatively high frequency areas (A, B) and low frequency areas (C). For example, a difference of 100 units is observed in area A, a difference of 10,000 units is observed in area B, while a difference of only 1 unit is rarely observed in area C. If this FEMS table was used as is, a problem arose that it became difficult for the CNN-based AI algorithm to learn parameters (weights). Therefore, the FEMS_Z table was created by performing additional preprocessing to ensure that all areas within the FEMS table had similar ranges of values.
  • the mean and standard deviation of the values at position (a), where the nucleic acid fragment size is 180 and has the AAAA motif were calculated and defined as Mean_180_AAAA and SD_180_AAAA, respectively.
  • FEMX_Z table Additionally, in order to add frequency information for each Fragment End Motif that is unrelated to the Fragment Size, the column sum value is added four times to the bottom of the 2-dimensional vector above, and Fragment Size information that is unrelated to the Fragment End Motif is added to the bottom of the 2-dimensional vector above. To add it, an Edge Summary step was created including adding the row sum value four times to the rightmost part of the two-dimensional vector above.
  • a CNN artificial intelligence model was learned to distinguish between healthy people and neuroblastoma patients by using the FEMS table or FEMS_Z table two-dimensional vector as input.
  • the data set in Table 2 was used, with the Training data set being used for model learning, the Validation data set being used for hyper-parameter tuning, and the Test data set being used for final model performance evaluation.
  • the basic structure of the CNN model is shown in Figure 11.
  • the activation function used was sigmoid, three convolution layers were used, and 13 10*10 patches were used. Pooling method used max and 2x2 patch. Four fully connected layers were used and 454 hidden nodes were included. Finally, the final DPI value was calculated using the sigmoid function value.
  • the hyper-parameter tuning process is a process of optimizing the values of various parameters (number of convolution layers, number of dense layers, number of convolution filters, etc.) that make up the CNN model.
  • Bayesian optimization and grid search techniques were used in the hyper-parameter tuning process, and Training When the validation loss started to increase compared to the loss, the model was judged to be overfitting and model learning was stopped.
  • the performance of several models obtained through hyper-parameter tuning was compared using the validation data set, then the model with the best performance in the validation data set was judged to be the optimal model, and the final performance evaluation was performed using the test data set.
  • DPI Deep Probability Index
  • the FEMS_Z table learning model had a higher probability of classifying a normal person as normal and a neuroblastoma patient than the FEMS table learning model.
  • the cancer diagnosis and cancer prediction method using cell-free nucleic acid fragment terminal sequence motif frequency and size generates vectorized data and analyzes it using an AI algorithm, so it is useful because it shows high sensitivity and accuracy even if read coverage is low. do.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Immunology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Mathematical Physics (AREA)
  • Hospice & Palliative Care (AREA)
  • General Physics & Mathematics (AREA)
  • Oncology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Microbiology (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)

Abstract

본 발명은 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법에 관한 것으로, 보다 구체적으로는 생체시료에서 핵산을 추출하여, 서열정보를 획득하여 정렬한 리드를 기반으로 핵산단편의 말단 서열 모티프 빈도와 핵산단편의 크기를 도출한 다음, 이를 벡터화된 데이터로 생성하여 후처리한 후, 학습된 인공지능 모델에 입력하여 계산된 값을 분석하는 방법을 이용한 암 진단 및 암 종 예측방법에 관한 것이다. 본 발명에 따른 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법은 벡터화된 데이터를 생성하여 AI 알고리즘을 이용하여 분석하기 때문에 리드 커버리지가 낮더라도 높은 민감도와 정확도를 나타내어 유용하다.

Description

세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법
본 발명은 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법에 관한 것으로, 보다 구체적으로는 생체시료에서 핵산을 추출하여, 서열정보를 획득하여 정렬한 리드를 기반으로 핵산단편의 말단 서열 모티프 빈도와 핵산단편의 크기를 도출한 다음, 이를 벡터화된 데이터로 생성하여 후처리한 후, 학습된 인공지능 모델에 입력하여 계산된 값을 분석하는 방법을 이용한 암 진단 및 암 종 예측방법에 관한 것이다.
임상에서의 암 진단은 통상적으로 병력 조사, 물리적 검사 및 임상적 평가 후 조직 생검(tissue biopsy)을 수행하여 확인하고 있다. 임상 실험에 의한 암 진단은 암 세포의 수가 10억 개 이상이고 암의 직경이 1cm 이상일 경우에만 가능하다. 이 경우, 암 세포는 이미 전이능력을 가지고 있으며, 적어도 이들 중 반은 이미 전이된 상태이다. 또한, 조직생검은 침습적이어서 환자에게 상당한 불편함을 주고, 암 환자를 치료하다 보면 조직생검을 수행할 수 없는 경우도 자주 있다는 문제점이 있다. 이외에, 암 스크리닝에 있어서 암으로부터 직접 또는 간접적으로 생산되는 물질을 모니터링하기 위한 종양 마커가 사용되고 있지만, 암이 존재하는 경우에도 종양 마커 스크리닝 결과 반 이상이 정상으로 나타나고, 암이 없는 경우에도 자주 양성으로 나타나기 때문에, 그 정확성에 한계가 있다.
이와 같은 통상적인 암 진단 방법의 문제점을 보완할 만한 비교적 간편하고 비침습적이며 높은 민감도 및 특이도를 가진 암 진단 방법의 요구에 따라, 최근 암의 진단, 추적 검사로 환자의 체액을 활용하는 액상생검(liquid biopsy)이 많이 이용되고 있다. 액상생검은 비침습적(non-invasive)인 방법으로, 기존의 침습적인 진단 및 검사방법의 대안으로 주목받고 있는 진단기술이다.
최근에는 액상생검에서 획득한 세포 유리 DNA (cell free DNA)을 이용하여 암 진단 및 암 종 감별을 수행하는 방법이 개발되고 있으며(US 10975431, Zhou, Xionghui et al., bioRxiv, 2020.07.16.201350), 특히, 세포 유리 핵산 말단 서열의 모티프 빈도 정보를 분석하여 암 진단, 산전진단 또는 장기이식 모니터링에 이용하는 방법이 알려져 있다(WO 2020-125709, Peiyong Jiang et al., cancer discovery, Vol. 10, 2020, pp. 664-673).
아울러, 세포 유리 핵산의 말단을 이용하여 암을 진단하는 방법이 공지된 바 있으나(US 2020-0199656 A1), 그 정확도가 낮다는 단점이 있다.
한편, 인공 신경망이란 연결선으로 연결된 많은 수의 인공 뉴런들을 이용하여 생물학적인 시스템의 계산 능력을 모방하는 소프트웨어나 하드웨어로 구현된 연산모델을 나타낸다. 인공 신경망에서는 생물학적인 뉴런의 기능을 단순화시킨 인공 뉴런을 사용하게 된다. 그리고 연결강도를 갖는 연결선을 통해 상호 연결시켜 인간의 인지작용이나 학습과정을 수행하게 된다. 연결강도는 연결선이 갖는 특정 값으로, 연결가중치라고도 한다. 인공신경망의 학습은 지도 학습과 비지도 학습으로 나눌 수 있다. 지도 학습이란 입력 데이터와 그에 대응하는 출력 데이터를 함께 신경망에 넣고, 입력 데이터에 대응하는 출력 데이터가 출력되도록 연결선들의 연결강도를 갱신시키는 방법이다. 대표적인 학습 알고리즘으로는 델타규칙(Delta Rule)과 오류 역전파 학습(Back propagation Learning)이 있다. 비지도 학습이란 목표 값 없이 입력 데이터만을 사용하여 인공신경망이 스스로 연결강도를 학습시키는 방법이다. 비지도 학습은 입력 패턴들 사이의 상관관계에 의해 연결가중치들을 갱신시켜 나가는 방법이다.
기계학습에서 적용되는 많은 데이터는 복잡해지고 차원이 늘어남에 따라 차원의 저주(curse of dimensionality)의 문제가 발생한다. 즉 이는, 필요한 데이터의 차원이 무한으로 갈수록 임의의 두 점간의 거리가 무한대로 발산하며 데이터의 존재량, 즉 밀도가 고차원의 공간에서는 다소 낮아져 데이터의 특성(Feature)을 제대로 반영하지 못하게 되는 것이다(Richard Bellman, Dynamic Programming, 2003, chapter 1). 최근 심층신경망(deep learning)의 발달은 입력층(input layer)과 출력층(output layer) 사이에 숨겨진 층(hidden layer)이 있는 구조로, 입력층으로부터 전달되는 변수 값의 선형 결합(linear combination)을 비선형 함수로 처리하면서 이미지, 영상, 신호데이터 등의 고차원의 데이터에서의 분류기(classifier)의 성능을 크게 향상시켰다고 보고되었다(Hinton, Geoffrey, et al., IEEESignal Processing Magazine Vol. 29.6, pp. 82-97, 2012).
이러한 인공신경망을 이용하여 바이오 분야에 활용하는 다양한 특허(KR KR 10-2018-124550, KR 10-2019-7038076, KR 10-2019-0003676, KR 10-2019-0001741)가 존재하고 있으나, 혈액 내 무세포 DNA(cell-free DNA, cfDNA)의 서열분석 정보를 기반으로 인공신경망 분석을 통해 암 종을 예측하는 방법에 대해서는 연구가 부족한 실정이다.
이에, 본 발명자들은 상기 문제점들을 해결하고, 높은 민감도와 정확도의인공지능 기반 암 진단 및 암 종 예측방법을 개발하기 위해 예의 노력한 결과, 무세포 핵산단편의 말단 서열 모티프와 핵산단편의 길이 정보를 기반으로 벡터화된 데이터를 생성하고, 이를 학습된 인공지능 모델로 분석할 경우, 높은 민감도와 정확도로 암 진단 및 암 종을 예측할 수 있다는 것을 확인하고, 본 발명을 완성하였다.
발명의 요약
본 발명의 목적은 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법을 제공하는 것이다.
본 발명의 다른 목적은 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측장치를 제공하는 것이다.
본 발명의 또 다른 목적은 상기 방법으로 암 진단 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 저장 매체를 제공하는 것이다.
상기 목적을 달성하기 위하여, 본 발명은 (a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계; (b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계; (c) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 및 핵산단편의 크기를 도출하는 단계; (d) 상기 도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용하여 벡터화된 데이터를 생성하는 단계; (e) 상기 벡터화된 데이터를 후처리하는 단계; (f) 상기 후처리된 데이터를 학습된 인공지능 모델에 입력하여 분석한 출력 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및 (g) 상기 출력 결과값 비교를 통해 암 종을 예측하는 단계를 포함하는 암 진단 및 암 종 예측을 위한 정보의 제공방법을 제공한다.
본 발명은 또한, (a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계; (b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계; (c) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 및 핵산단편의 크기를 도출하는 단계; (d) 상기 도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용하여 벡터화된 데이터를 생성하는 단계; (e) 상기 벡터화된 데이터를 후처리하는 단계; (f) 상기 후처리된 데이터를 학습된 인공지능 모델에 입력하여 분석한 출력 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및 (g) 상기 출력 결과값 비교를 통해 암 종을 예측하는 단계를 포함하는 암 진단 및 암 종 예측방법을 제공한다.
본 발명은 또한, 생체시료에서 핵산을 추출하여 서열정보를 해독하는 해독부; 해독된 서열을 표준 염색체 서열 데이터베이스에 정렬하는 정렬부; 정렬된 서열 기반의 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의크기를 도출하는 핵산단편 분석부; 도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용한 벡터화된 데이터를 생성한 뒤, 후처리를 수행하는 데이터 생성부; 생성된 후처리된 벡터화 데이터를 학습된 인공지능 모델에 입력하여 분석하고, 기준값과 비교하여 암 유무를 판정하는 암 진단부; 및 출력된 결과값을 분석하여 암 종을 예측하는 암 종 예측부를 포함하는 암 진단 및 암 종 예측 장치를 제공한다.
본 발명은 또한, 컴퓨터 판독 가능한 저장 매체로서, 암 진단 및 암 종을예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하되, (a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계; (b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계; (c) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 및 핵산단편의 크기를 도출하는 단계; (d) 상기 도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용하여 벡터화된 데이터를 생성하는 단계; (e) 상기 벡터화된 데이터를 후처리하는 단계; (f) 상기 후처리된 데이터를 학습된 인공지능 모델에 입력하여 분석한 출력 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및 (g) 상기 출력 결과값 비교를 통해 암 종을 예측하는 단계를통하여, 암 진단 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 암 진단 및 암 종 예측용 컴퓨터 판독 가능한 저장 매체를 제공한다.
도 1은 본 발명의 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법을 수행하기 위한 전체 흐름도이다.
도 2는 본 발명의 일 실시예에서 건강인과 암 환자, 또는 각 암 종 사이에서 발현 빈도에 차이가 있는 motif를 선별한 과정의 예시이다.
도 3은 본 발명의 일 실시예에서 선별한 핵산단편들의 크기 분포를 확인한 그래프이다.
도 4의 왼쪽 패널은 본 발명의 일 실시예에서 제작한 FEMS table을 하나의 핵산단편으로 작성한 예시이고, 오른쪽 패널은 전체 핵산단편으로 작성한 예시이다.
도 5의 왼쪽 패널은 본 발명의 일 실시예에서 Edge summary를 추가로 수행하여 작성한 FEMS table의 예시이며, 오른쪽 패널은 이를 시각화한 결과이다.
도 6은 본 발명의 일 실시예에서 제작한 FEMS table의 구역별 빈도 값의 차이를 설명하는 도면이다.
도 7은 본 발명의 일 실시예에서 제작한 FEMS_Z table의 제작 과정을 나타내는 모식도이다.
도 8은 본 발명의 일 실시예에서 사용한 건강인 및 신경모세포종 (Neuroblastoma) 환자의 데이터를 바탕으로 작성한 FEMS table과 표준화 작업을 통해 구축한 FEMS_Z table의 시각화 예시이다.
도 9는 본 발명의 일 실시예에서 구축한 FEMS table을 이용한 CNN 모델과 FEMS_Z table을 이용한 CNN 모델의 성능을 비교한 결과이다.
도 10은 본 발명의 일 실시예에서 구축한 FEMS table을 이용한 CNN 모델과 FEMS_Z table을 이용한 CNN 모델의 실제 환자 분석 결과이다.
도 11은 본 발명의 일 실시예에서 구축한 CNN 모델의 구성을 나타내는 개략도이다.
발명의 상세한 설명 및 바람직한 구현예
다른 식으로 정의되지 않는 한, 본 명세서에서 사용된 모든 기술적 및 과학적 용어들은 본 발명이 속하는 기술 분야에서 숙련된 전문가에 의해서 통상적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 본 명세서에서 사용된 명명법 및 이하에 기술하는 실험 방법은 본 기술 분야에서 잘 알려져 있고 통상적으로 사용되는 것이다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설시된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 발명에서는, 샘플에서 획득한 서열 분석 데이터를 참조 유전체에 정렬한 다음, 정렬된 서열정보를 기반으로 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 도출하고, 상기 도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용하여 벡터화된 데이터를 생성하여 후처리한 다음, 학습된 인공지능 모델에서 DPI값을 계산하여 분석할 경우, 높은 민감도와 정확도로 암 진단 및 암 종류를 예측할 수 있다는 것을 확인하고자 하였다.
즉, 본 발명의 일 실시예에서는, 혈액에서 추출한 DNA를 시퀀싱 한 뒤, 참조 염색체에 정렬한 다음, 이를 이용하여 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 도출하고, 핵산단편의 말단 서열 모티프 빈도를 X축으로 하고, 핵산단편의 크기를 Y축으로 하는 벡터화된 데이터를 생성하여 후처리한 다음, 이를 암 진단 및 암 종 구분을 수행하도록 학습된 인공지능 모델에 입력하여 DPI 값을 출력하였으며, 이를 기준값과 비교하여 암 진단을 수행한 다음, 각 암 종별로 출력된 DPI 값 중, 가장 높은 DPI값을 나타낸 암 종을 샘플의 암 종으로 결정하는 방법을 개발하였다(도 1)
따라서, 본 발명은 일관점에서,
(a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계;
(b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
(c) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 및 핵산단편의 크기를 도출하는 단계;
(d) 상기 도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용하여 벡터화된 데이터를 생성하는 단계;
(e) 상기 벡터화된 데이터를 후처리하는 단계;
(f) 상기 후처리된 데이터를 학습된 인공지능 모델에 입력하여 분석한 출력 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및
(g) 상기 출력 결과값 비교를 통해 암 종을 예측하는 단계를 포함하는 암 진단 및 암 종 예측을 위한 정보의 제공방법에 관한 것이다.
본 발명은 다른 관점에서,
(a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계;
(b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
(c) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 및 핵산단편의 크기를 도출하는 단계;
(d) 상기 도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용하여 벡터화된 데이터를 생성하는 단계;
(e) 상기 벡터화된 데이터를 후처리하는 단계;
(f) 상기 후처리된 데이터를 학습된 인공지능 모델에 입력하여 분석한 출력 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및
(g) 상기 출력 결과값 비교를 통해 암 종을 예측하는 단계를 포함하는 암 진단 및 암 종 예측방법에 관한 것이다.
본 발명에 있어서, 상기 핵산 단편은 생체시료에서 추출한 핵산의 조각이면 제한없이 이용할 수 있으며, 바람직하게는 세포 유리 핵산 또는 세포 내 핵산의 조각일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 핵산 단편은 통상의 기술자에게 알려진 모든 방법으로 얻을 수 있으며, 바람직하게는 직접 서열분석하거나, 차세대 염기서열 분석을 통해 서열분석하거나 또는 비특이적 전장 유전체 증폭(non-specific whole genome amplification)을 통해 서열분석하여 얻거나, 프로브 기반 서열분석을 통해 얻을 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서 상기 암은 고형암 또는 혈액암일 수 있으며, 바람직하게는 비호지킨 림프종 (non-Hodgkin lymphoma), 호지킨 림프종 (non-Hodgkin lymphoma), 급성 골수성 백혈병 (acute-myeloid leukemia), 급성 림프구성 백혈병 (acute-lymphoid leukemia), 다발성 골수종 (multiple myeloma), 경부암 (head and neck cancer), 폐암, 교모세포종 (glioblastoma), 신경모세포종, 대장/직장암, 췌장암, 유방암, 난소암, 흑색종 (melanoma), 전립선암, 간암, 갑상선암, 위암, 담낭암, 담도암, 방광암, 소장암, 자궁경부암, 원발부위불명암, 신장암, 식도암 및 중피종 (mesothelioma)으로 구성된 군에서 선택될 수 있으며, 더욱 바람직하게는 신경모세포종 일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서,
상기 (a) 단계는
(a-i) 생체시료에서 핵산을 수득하는 단계;
(a-ii) 채취된 핵산에서 솔팅-아웃 방법(salting-out method), 컬럼 크로마토그래피 방법(column chromatography method) 또는 비드 방법(beads method)을 사용하여 단백질, 지방, 및 기타 잔여물을 제거하고 정제된 핵산을 수득하는 단계;
(a-iii) 정제된 핵산 또는 효소적 절단, 분쇄, 수압 절단 방법(hydroshear method)으로 무작위 단편화(random fragmentation)된 핵산에 대하여, 싱글 엔드 시퀀싱(single-end sequencing) 또는 페어 엔드 시퀀싱(pair-end sequencing) 라이브러리(library)를 제작하는 단계;
(a-iv) 제작된 라이브러리를 차세대 유전자서열검사기(next-generation sequencer)에 반응시키는 단계; 및
(a-v) 차세대 유전자서열검사기에서 핵산의 서열정보(reads)를 획득하는 단계;
를 포함하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (a) 단계의 서열정보를 획득하는 단계는 분리된 무세포 DNA를 1백만 내지 1억 리드 깊이로 전장 유전체 시퀀싱을 통해 획득하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 생체시료는 개체로부터 얻어지거나 개체로부터 유래된 임의의 물질, 생물학적 체액, 조직 또는 세포를 의미하는 것으로, 예를 들면, 전혈(whole blood), 백혈구(leukocytes), 말초혈액 단핵 세포(peripheral blood mononuclear cells), 백혈구 연층(buffy coat), (혈장(plasma) 및 혈청(serum)을 포함하는) 혈액, 객담(sputum), 눈물(tears), 점액(mucus), 세비액(nasal washes), 비강 흡인물(nasal aspirate), 호흡(breath), 소변(urine), 정액(semen), 침(saliva), 복강 세척액(peritoneal washings), 골반 내 유체액(pelvic fluids), 낭종액(cystic fluid), 뇌척수막 액(meningeal fluid), 양수(amniotic fluid), 선액(glandular fluid), 췌장액(pancreatic fluid), 림프액(lymph fluid), 흉수(pleural fluid), 유두 흡인물(nipple aspirate), 기관지 흡인물(bronchial aspirate), 활액(synovial fluid), 관절 흡인물(joint aspirate), 기관 분비물(organ secretions), 세포(cell), 세포 추출물(cell extract), 정액, 모발, 타액, 소변, 구강세포, 태반세포, 뇌척수액(cerebrospinal fluid) 및 이의 혼합물을 포함할 수 있으나, 이에 제한되는 것은 아니다.
본 발명에 있어서, 상기 차세대 유전자서열검사기(next-generation sequencer)는 당업계에 공지된 임의의 시퀀싱 방법으로 사용될 수 있다. 선택 방법에 의해 분리된 핵산의 시퀀싱은 전형적으로는 차세대 시퀀싱(NGS)을 사용하여 수행된다. 차세대 시퀀싱은 개개의 핵산 분자 또는 고도로 유사한 방식으로 개개의 핵산 분자에 대해 클론으로 확장된 프록시 중 하나의 뉴클레오타이드 서열을 결정하는 임의의 시퀀싱 방법을 포함한다(예를 들어, 105개 이상의 분자가 동시에 시퀀싱된다). 일 실시형태에서, 라이브러리 내 핵산 종의 상대적 존재비는 시퀀싱 실험에 의해 만들어진 데이터에서 그것의 동족 서열의 상대적 발생 수를 계측함으로써 추정될 수 있다. 차세대 시퀀싱 방법은 당업계에 공지되어 있고, 예를 들어 본 명세서에 참조로서 포함된 문헌(Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46)에 기재된다.
차세대 시퀀싱을 위한 플랫폼은, 이하에 제한되는 것은 아니지만, 로슈(Roche)/454의 게놈 시퀀서(Genome Sequencer: GS) FLX 시스템, 일루미나(Illumina)/솔렉사(Solexa) 게놈 분석기(Genome Analyzer: GA), 라이프(Life)/APG의 서포트 올리고(Support Oligonucleotide Ligation Detection: SOLiD) 시스템, 폴로네이터(Polonator)의 G. 007 시스템, 헬리코스 바이오사이언스의 헬리스코프 유전자 시퀀싱 시스템(Helicos BioSciences' HeliScope Gene Sequencing system) 및 퍼시픽 바이오사이언스(Pacific Biosciences)의 팩바이오알에스(PacBio RS) 시스템을 포함한다.
본 발명에 있어서, 상기 (b) 단계의 서열정보(reads)의 길이는, 5 내지 5000 bp이고, 사용하는 서열정보의 수는 5천 내지 500만개가 될 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 (c) 단계의 핵산단편 말단 서열 모티프는 핵산단편 양 말단의 2 내지 30개의 염기서열의 패턴인 것을 특징으로 할 수 있다.
즉, 하기와 같이 페어드-엔드 시퀀싱에 의해 서열분석된 핵산단편이 있을 시,
Forward strand: 5`-TACAGACTTTGGAAT-3` (서열번호 1)
Reverse strand: 3`-ATGACTGAAACCTTA-5` (서열번호 2)
Forward strand 5` 말단에서부터 순서대로 읽은 TACA와, Reverse strand 5` 말단에서부터 순서대로 읽은 ATTC가 이 핵산단편의 말단 서열 모티프 값이 된다.
본 발명에 있어서, 상기 (c) 단계의 핵산단편 말단 서열 모티프의 빈도는 전체 핵산 단편에서 검출된 각각의 모티프 수인 것을 특징으로 할 수 있다.
즉, 핵산단편 말단 서열 모티프를 양 말단의 4개의 염기를 바탕으로 분석할 경우(4-mer motif), 1, 2, 3, 4 번째 위치에 각각 A, T, G, C 네 종류의 염기 조합이 가능하기 때문에, 총 256 가지 (4*4*4*4) 조합의 motif 값이 분석 대상이 된다.
시퀀싱으로 생상된 전체 핵산 단편에서 각 motif들이 관측되는 수를 계수한 것이 모티프 빈도이고, 이 값을 생산된 전체 핵산 단편 숫자로 나누어 계산한 값이 각 motif의 상대 빈도(relative frequency)이다.
Figure PCTKR2023019488-appb-img-000001
상기 표 1에 기재된 바와 같이 전체 핵산 단편의 숫자가 126,430,124개 이고, AAAA가 핵산단편 말단 서열 모티프로 분석되는 핵산단편의 개수가 125,071개이므로, AAAA 핵산단편 말단 서열 모티프의 빈도는 125,071이되고, 이를 전체 핵산단편 숫자로 나누어 계산한 핵산단편 말단 서열 모티프의 상대 빈도는 0.00099가 되는 것이다.
본 발명에 있어서, 상기 (c) 단계의 핵산단편의 크기는 핵산단편의 5’ 말단에서 3’ 말단까지의 염기 개수인 것을 특징으로 할 수 있다.
예를 들어, 상기 서열번호 1 및 2로 분석되는 핵산단편의 크기는 15이다.
본 발명에서, 상기 핵산단편의 크기는 1 내지 10000일 수 있고, 바람직하게는 10 내지 1000일 수 있으며, 더욱 바람직하게는 50 내지 500일 수 있고, 가장 바람직하게는 100 내지 250일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 (d) 단계의 벡터화된 데이터는 핵산단편 말단 서열 모티프 종류를 X축으로 하고, 핵산단편의 크기를 Y축으로 하는 것을 특징으로 할 수 있다.
즉, 아래와 같은 핵산 단편이 하나 있다고 가정했을 때,
Forward strand: 5`-TACAGACTAGT … TTGGAAT-3` (서열번호 3)
Reverse strand: 3`-ATGACTGATCA … AACCTTA-5` (서열번호 4)
Fragment Size: 176
이 핵산단편은 도 4의 왼쪽 패널과 같은 2차원 벡터로 표현될 수 있으며, 이러한 과정을 전체 핵산 단편으로 확장하여 누적하면, 도 4의 오른쪽 패널과 같은 2차원 벡터를 생성하는 것이다.
본 발명에 있어서, 상기 벡터화된 데이터는 핵산단편 말단 모티프별 빈도의 총합 및 핵산단편 크기별 빈도의 총합을 추가로 포함하는 것을 특징으로 할 수 있다.
즉, Fragment Size에 관계없는 Fragment End Motif별 frequency 정보를 추가하기 위해 열 합 (column sum) 값을 도 4의 2차원 벡터 가장 아래에 4번 추가하고, Fragment End Motif에 관계없는 Fragment Size 정보를 추가하기 위해 행 합 (row sum) 값을 도 4의 2차원 벡터 가장 우측에 4번 추가하는 Edge Summary를 추가적으로 수행하여, 도 5의 왼쪽 패널과 같은 2차원 벡터를 생성하는 것이다.
본 발명에서는 상기 2차원 벡터를 Fragment End Motif frequency and Size (FEMS) table이라 정의하였다. FEMS table을 시각화하면 도 5의 오른쪽 패널과 같이 나타날 수 있다.
본 발명에 있어서, 상기 (e) 단계는 다음의 단계를 포함하는 방법으로 수행하는 것을 특징으로 할 수 있다:
(e-i) 정상인 그룹에서 각 핵산단편 말단 서열 모티프의 종류와 핵산단편의 크기 별 빈도 값의 평균 및 표준편차를 계산하는 단계;
(d-ii) 샘플의 각 핵산단편 말단 서열 모티프의 종류와 핵산단편의 크기 별 빈도 값에 정상인 그룹의 각 핵산단편 말단 서열 모티프의 종류와 핵산단편의 크기 별 빈도 값의 평균을 뺀 다음 각 핵산단편 말단 서열 모티프의 종류와 핵산단편의 크기 별 빈도 값의 표준 편차로 나누어 Z 표준화를 수행하여 Z 표준화 값을 도출하는 단계; 및
(d-iii) 상기 (d-ii)에서 도출된 Z 표준화 값이 기준 범위 초과일 경우, 기준값으로 보정하는 단계.
본 발명에 있어서, 상기 기준 범위는 -5 내지 5이며, 기준값은 -5 또는 5인 것을 특징으로 할 수 있다.
즉, 기존의 FEMS table이 영역별로 계산되는 값의 분포 차이가 커서 이를 표준화하는 후처리 작업을 수행하는 것을 특징으로 하는 것이다.
예를 들어, 상기 후처리 작업은 아래와 같은 단계를 통해 수행될 수 있다:
i) training 데이터에 포함되어 있는 건강인 99명을 Z 표준화 참조군 (Z Reference set)으로 선별하는 단계;
ii) 선별된 Z 표준화 참조군에서, FEMS table 내의 각 위치에서 관찰되는 값의 평균과 표준편차를 계산하는 단계: 예를 들어, 99명의 Z 표준화 참조군의 FEMS table에서 핵산단편 크기가 180이면서 AAAA 모티프를 갖는 위치 (a)에 있는 값의 평균 및 표준편차를 계산하여 각각 Mean_180_AAAA, SD_180_AAAA로 정의한다.
iii) 위의 ii) 과정에서 계산된 FEMS table 내의 각 위치에서의 평균, 표준편차 값을 이용해 Z 표준화를 수행하는 단계: 구체적으로, 핵산단편 크기가 180이면서 AAAA 모티프를 갖는 위치에서 관찰되는 빈도값을 Value_180_AAAA라 했을 때, Z_180_AAAA = (Value_180_AAAA - Mean_180_AAAA) / SD_180_AAAA 의 수식으로 Z 표준화를 수행한다.
iv) 표준편차 값이 너무 작아 일반적인 범위 (-5 ~ 5) 밖으로 계산되는 Z 표준화 값의 영향을 배제하기 위해, Z < -5 인 값은 -5로, Z > 5 인 값은 5로 하여 Z 표준화 값의 최소 및 최대 범위를 제한하는 단계.
상기 단계를 통해 생성한 FEMS_Z table을 시각화하면 도 7에 기재된 바와 같다.
본 발명에서 벡터화된 데이터는 이에 한정되지는 않으나 바람직하게는 이미지화된 것을 특징으로 할 수 있다. 이미지는 기본적으로 픽셀로 구성되는데, 픽셀로 구성된 이미지를 벡터화 시키면, 이미지의 종류에 따라서 1차원 2D 벡터(흑백), 3차원 2D 벡터(color(RGB)) 또는 4차원 2D 벡터(color(CMYK))로 표현될 수 있다.
본 발명의 벡터화된 데이터는 이미지에 한정되지 않고, 예를 들어 n개의 흑백 이미지 여러 장으로 쌓아서 n차원의 2D 벡터(Multi-dimensional Vector)를 이용하여 인공지능 모델의 입력 데이터로 사용할 수 있다.
본 발명에서 벡터화된 데이터는 이에 한정되지는 않으나, 2D table 인 것을 특징으로 할 수 있다.
본 발명에서, 상기 (c) 단계를 수행하기에 앞서 정렬된 핵산단편의 정렬 일치도 점수(mapping quality score)를 만족하는 핵산단편을 따로 분류하는 단계를 추가로 포함하는 것을 특징으로 할 수 있다.
본 발명에서 상기 정렬 일치도 점수(mapping quality score)는 원하는 기준에 따라 달라질 수 있으나, 바람직하게는 15-70점, 더욱 바람직하게는 50~70점 일 수 있고, 가장 바람직하게는 60점일 수 있다.
본 발명에 있어서, 상기 (f) 단계의 인공지능 모델은 암 종류별 이미지를 구별할 수 있도록 학습할 수 있는 모델이면 제한없이 사용가능하며, 바람직하게는 딥러닝 모델인 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 인공지능 모델은 인공신경망 기반으로 벡터화된 데이터를 분석할 수 있는 인공신경망 알고리즘이면 제한없이 이용할 수 있으나, 바람직하게는 합성곱 신경망(convolutional neural network, CNN), 심층 신경망(Deep Neural Network, DNN) 및 순환 신경망(Recurrent Neural Network, RNN)으로 구성된 군에서 선택되는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 순환 신경망은 LSTM(Long-short term memory) 신경망, GRU(Gated Recurrent Unit) 신경망, 바닐라 순환 신경망(Vanilla recurrent neural network) 및 집중적 순환 신경망(attentive recurrent neural network)으로 구성된 군에서 선택되는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 인공지능 모델이 CNN일 경우, binary classification을 수행하는 손실함수는 하기 수식 1로 표시되는 것을 특징으로 할 수 있고, Multi-class classification을 수행하는 손실함수는 하기 수식 2로 표시되는 것을 특징으로 할 수 있다.
Figure PCTKR2023019488-appb-img-000002
Figure PCTKR2023019488-appb-img-000003
본 발명에서, 상기 binary classification은 인공지능 모델이 암 유무를 판별하도록 학습하는 것을 의미하며, multi-class classification은 인공지능 모델이 두 가지 이상의 암 종을 판별하도록 학습하는 것을 의미한다.
본 발명에서, 상기 인공지능 모델이 CNN일 경우, 학습은 하기 단계를 포함하여 수행되는 것을 특징으로 할 수 있다:
i) 생산된 벡터 데이터를 training(학습), validation(검증), test(성능평가) 데이터로 분류하는 단계;
이 때, Training 데이터는 CNN 모델을 학습할 때 사용되고, Validation 데이터는 hyper-parameter tuning 검증에 사용되며, Test 데이터는 최적의 모델 생산 후, 성능 평가로 사용되는 것을 특징으로 함.
ii) Hyper-parameter tuning 및 학습 과정을 통해서 최적의 CNN 모델을 구축하는 단계;
iii) Hyper-parameter tuning을 통해서 얻어진 여러 모델의 성능을 validation data를 이용하여 비교하여, validation data 성능이 가장 좋은 모델을 최적의 모델로 결정하는 단계;
본 발명에서, 상기 Hyper-parameter tuning 과정은 CNN 모델을 이루는 여러 parameter(convolution layer 수, dense layer 수, convolution filter 수 등) 값을 최적화하는 과정으로 Hyper-parameter tuning 과정으로는 Bayesian optimization 및 grid search 기법을 사용하는 것을 특징으로 할 수 있다.
본 발명에서, 상기 학습 과정은 정해진 hyper-parameter들을 이용하여 CNN 모델의 내부 parameter(weights)들을 최적화시켜, Training loss 대비 validation loss가 증가하기 시작하면 모델이 과적합(Overfitting) 되었다 판단하고, 그전에 model 학습을 중단하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (f) 단계에서 인공지능 모델이 입력된 벡터화된 데이터로부터 분석한 결과값은 특정 score 또는 실수이면 제한없이 이용가능하며, 바람직하게는 DPI(Deep Probability Index) 값인 것을 특징으로 할 수 있으나 이에 한정되는 것은 아니다.
본 발명에서, Deep probability Index는 인공지능 model의 마지막 layer에 binary classification일 경우 sigmoid function, multi-class classification일 경우 softmax function을 사용하여 인공지능의 output을 0 ~ 1 scale로 조정하여 확률값으로 표현한 값을 의미한다.
Binary classification일 경우에는 sigmoid function을 이용하여 암 일 경우 DPI 값이 1이 되게끔 학습을 하게 된다. 예를 들어, 유방암 샘플과 정상 샘플이 입력되면, 유방암 샘플의 DPI 값이 1에 가깝도록 학습하는 것이다.
Multi-class classification 일 경우에는 softmax function을 이용하여, class 개수만큼의 DPI 값을 뽑게 된다. Class 개수만큼의 DPI갑의 합은 1이되고, 실제 해당되는 암 종의 DPI값이 1이 되게끔 학습을 하게 된다. 예를 들어, 3개의 class 유방암, 간암, 정상이 있고, 유방암 sample이 들어오면, 유방암 class를 1에 가깝게 학습하게 되는 것이다.
본 발명에서 상기 (f) 단계의 출력 결과값은 암 종별로 도출되는 것을 특징으로 할수 있다.
본 발명에서, 상기 인공지능 모델은 학습할 때, 암이 있으면 output 결과가 1에 가깝게 학습하고, 암이 없으면 output 결과가 0에 가깝게 학습을 시켜서, 0.5를 기준으로 0.5 이상이면 암이 있다고 판단하고, 0.5 이하이면 암이 없다고 판단하여 performance 측정을 수행하였다(Training, validation, test accuracy).
여기서, 0.5의 기준값은 언제든지 바뀔 수 있는 값이라는 것은 통상의 기술자에게 자명한 것이다. 예를 들어서 False positive(위양성)를 줄이고자 하면, 0.5보다 높은 기준값을 설정하여 암이 있다고 판단되는 기준을 엄격하게 가져 갈 수 있고, False Negative(위음성)를 줄이고자 하면 기준값을 더 낮게 측정하여 암이 있다고 판단되는 기준을 조금 더 약하게 가져 갈 수 있다.
가장 바람직하게는 학습된 인공지능 모델을 이용하여 unseen data(학습에 training하지 않은 답을 알고 있는 data)를 적용시켜서, DPI값의 probability를 확인하여 기준값을 정할 수 있다.
본 발명에 있어서, 상기 (g) 단계의 출력 결과값 비교를 통해 암 종을 예측하는 단계는 출력 결과값 중, 가장 높은 값을 나타내는 암 종을 샘플의 암으로 판정하는 단계를 포함하는 방법으로 수행하는 것을 특징으로 할 수 있다.
본 발명은 또 다른 관점에서, 생체시료에서 핵산을 추출하여 서열정보를 해독하는 해독부;
해독된 서열을 표준 염색체 서열 데이터베이스에 정렬하는 정렬부; 및
정렬된 서열 기반의 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의크기를 도출하는 핵산단편 분석부;
도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용한 벡터화된 데이터를 생성한 뒤, 후처리를 수행하는 데이터 생성부;
생성된 후처리된 벡터화 데이터를 학습된 인공지능 모델에 입력하여 분석하고, 기준값과 비교하여 암 유무를 판정하는 암 진단부; 및
출력된 결과값을 분석하여 암 종을 예측하는 암 종 예측부를 포함하는 암 진단 및 암 종 예측 장치에 관한 것이다.
본 발명에서, 상기 해독부는 독립된 장치에서 추출된 핵산을 주입하는 핵산 주입부; 및 주입된 핵산의 서열정보를 분석하는 서열정보 분석부를 포함할 수 있으며, 바람직하게는 NGS 분석 장치일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서, 상기 해독부는 독립된 장치에서 생성된 서열정보 데이터를 수신하여 해독하는 것을 특징으로 할 수 있다.
본 발명은 또 다른 관점에서, 컴퓨터 판독 가능한 저장 매체로서, 암 진단 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하되,
(a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계;
(b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
(c) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 및 핵산단편의 크기를 도출하는 단계;
(d) 상기 도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용하여 벡터화된 데이터를 생성하는 단계;
(e) 상기 벡터화된 데이터를 후처리하는 단계;
(f) 상기 후처리된 데이터를 학습된 인공지능 모델에 입력하여 분석한 출력 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및
(g) 상기 출력 결과값 비교를 통해 암 종을 예측하는 단계를 통하여, 암 진단 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 암 진단 및 암 종 예측용 컴퓨터 판독 가능한 저장 매체에 관한 것이다.
다른 양태에서 본원에 따른 방법은 컴퓨터를 이용하여 구현될 수 있다. 일 구현예에서, 컴퓨터는 칩 세트에 연결된 하나 이상의 프로세서를 포함한다. 또한 칩 세트에는 메모리, 저장 장치, 키보드, 그래픽 어댑터(Graphics Adapter), 포인팅 장치(Pointing Device) 및 네트워크 어댑터(Network Adapter) 등이 연결되어 있다. 일 구현예에서, 상기 칩 세트의 성능은 메모리 컨트롤러 허브(Memory Controller Hub) 및 I/O 컨트롤러 허브에 의하여 가능하다. 다른 구현예에서, 상기 메모리는 칩 세트 대신에 프로세서에 직접 연결되어 사용될 수 있다. 저장 장치는 하드 드라이브, CD-ROM(Compact Disk Read-Only Memory), DVD 또는 기타 메모리 장치를 포함하는 데이터를 유지할 수 있는 임의의 장치이다. 메모리는 프로세서에 의하여 사용된 데이터 및 명령에 관여한다. 상기 포인팅 디바이스는 마우스, 트랙볼 (Track Ball) 또는 다른 유형의 포인팅 디바이스일 수 있고, 키보드와 조합하여 입력 데이터를 컴퓨터 시스템으로 전송하는데 사용된다. 상기 그래픽 어댑터는 디스플레이 상에서 이미지 및 다른 정보를 나타낸다. 상기 네트워크 어댑터는 근거리 또는 장거리 통신망으로 컴퓨터 시스템과 연결된다. 본원에 사용되는 컴퓨터는 하지만 위와 같은 구성으로 제한되는 것은 아니고, 일부 구성이 없거나, 추가의 구성을 포함 할 수 있으며, 또한 저장장치영역네트워크(Storage Area Network, SAN)의 일부일 수 있으며, 본원의 컴퓨터는 본원에 따른 방법의 수행을 위한 프로그램에 모듈의 실행에 적합하도록 구성될 수 있다.
본원에서 모듈이라 함은, 본원에 따른 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스(Resource)의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아님은 본원 기술분야의 당업자에게 자명한 것이다.
실시예
이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 예시하기 위한 것으로서, 본 발명의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지는 않는 것은 당업계에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.
실시예 1. 혈액에서 DNA를 추출하여, 차세대 염기서열 분석 수행
건강인 202명, 신경모세포종 환자 64명의 혈액을 10mL씩 채취하여 EDTA Tube에 보관하였으며, 채취 후 2시간 이내에 1200g, 4℃, 15분의 조건으로 혈장 부분만 1차 원심분리한 다음, 1차 원심분리된 혈장을 16000g, 4℃, 10분의 조건으로 2차 원심분리하여 침전물을 제외한 혈장 상층액을 분리하였다. 분리된 혈장에 대해 Chemagic ccfNA 2K Kit (chemagen)을 사용하여 cell-free DNA를 추출하고, MGIEasy cell-free DNA library prep set kit 를 사용하여 library preparation 과정을 수행 한 다음, DNBseq G400 장비 (MGI) 를 100 base Paired end 모드로 sequencing 하였다. 그 결과, 샘플 당 약 170 million 개의 reads가 생산되는 것을 확인하였다.
생성한 데이터 세트는 하기 표 2와 같다.
Figure PCTKR2023019488-appb-img-000004
실시예 2. 핵산단편 말단 모티프 및 핵산단편 크기 선별
2-1. 핵산단편 말단 모티프 선별
핵산단편 말단 모티프를 4개의 염기(A, T, G, C)로 설정하고, 전체 256가지(4*4*4*4) 가지 종류의 motif 중에는 Normal / NBT 그룹에서 상대빈도 차이가 없는 motif 들이 있다. 이러한 차이가 없는 motif를 포함하여 FEMS table을 생성할 경우, Classification을 위한 의미 있는 정보는 주지 못하면서 모델의 연산 양만 늘리는 Noise가 된다. 따라서, 이러한 의미 없는 Motif는 제외시키기 위해, 세 그룹에서 상대빈도의 차이가 유의미하게 존재했던 특정 motif들만 선별하였다.
아울러, Size, Motif 선별 과정에서 모델 과적합 (Overfitting) 이슈가 생기는 것을 방지하기 위해, Size, Motif 선별 과정에는 Training set만을 사용하다.
즉, 실시예 1에서 생성한 NGS 데이터를 이용하여, 핵산단편 말단 모티프를 4개의 염기(A, T, G, C)로 설정하고, 전체 256가지(4*4*4*4) 가지 종류의 motif 들 중 건강인(Normal), 신경모세포종(NBT) 환자 그룹 사이에 통계적으로 유의미한 수준의 (Kruskal-wallis Test, FDR-adjust p < 0.05) 상대 빈도(relative frequency) 차이를 나타내는 일부 motif를 선별하였다(도 2).
또한, 위 과정에서 선별한 motif 중, overfitting을 방지하기 위하여 건강인 그룹에서의 평균 frequency가 random baseline (1/256, 0.004) 보다 높은 motif를 추가 선별하였다.
그 결과, 총 85개의 모티프를 선별하였으며, 상세한 모티프 정보는 아래와 같다:
CACT, CCCC, CCAT, TATT, ACCA, AGCA, TACA, CCTC, ACAA, TGTT, TGCT, CTCT, GGTA, GGCT, ATTT, TGTC, GCCT, GACA, CACC, CATA, CACA, TACT, AGTA, TATC, GGAG, TCTC, AGTG, TGTG, GGCA, GGGA, GCCA, CATC, AATA, TGAT, TGAC, CTGA, GAAT, AACA, CATG, TGAA, GCTG, CTTG, GGTG, GGAT, CAAG, TATG, GAAA, CTTC, GGAA, AAAT
2-2. 핵산단편 크기 선별
핵산단편 크기 선별의 경우에는, 퀄리티 확인이 끝난 핵산 단편들은 대부분 도 3에 기재된 바와 같이, 110~230 범위의 size를 가지고 있으므로, 이 크기 범위를 벗어나는 영역을 포함하여 FEMS table을 생성할 경우, 대부분의 영역이 0 값으로 채워지고, 의미 없는 Noise만 증가하게 되므로, 상기 크기를 선별하였다.
실시예 3. Fragment End Motif frequency and Size (FEMS) table 생성 및 FEMS_Z table 생성
3-1 FEMS table 생성
실시예 2에서 선별한 핵산 단편의 Fragment End Motif frequency 값과 Size 정보를 동시에 표현할 수 있도록 X 축에는 motif 종류를, Y 축에는 Fragment Size를 배열하여 2차원의 벡터를 생성하였다. 보다 구체적으로는, 도 4의 왼쪽 패널에 기재된 바와 같이, 하나의 핵산 단편에 대하여 양 말단의 핵산 모티프 종류와 크기를 빈도수로 표현하고, 이를 전체 핵산 단편으로 확장시키고 누적하여, 도 4에 기재된 바와 같은 2차원 벡터를 생성하였다.
또한, Fragment Size에 관계없는 Fragment End Motif별 frequency 정보를 추가하기 위해 열 합 (column sum) 값을 위의 2차원 벡터 가장 아래에 4번 추가하고, Fragment End Motif에 관계없는 Fragment Size 정보를 추가하기 위해 행 합 (row sum) 값을 위의 2차원 벡터 가장 우측에 4번 추가하는 Edge Summary 단계를 수행하여 최종적으로 도 5에 기재된 바와 같은 2차원 벡터를 생성하였다. 이 2차원 벡터를 Fragment End Motif frequency and Size (FEMS) table이라 정의하였으며, 이를 시각화한 예시는 도 5에 기재된 바와 같다.
3-2 FEMS_Z table 생성
3-1에서 생성한 FEMS table을 구성하는 값은 특정 크기와 모티프를 갖는 핵산단편의 빈도이다. 이 빈도 값은 도 6에 기재된 바와 같이, 상대적으로 빈도가 높은 영역 (A, B)과 낮은 영역 (C)에서 계산되는 값의 분포 차이가 크다는 특징이 있다. 예를 들어, A 영역에서는 100단위의 차이가 관찰되고, B 영역에서는 10,000 단위의 차이가 관찰되는 반면, C 영역에서는 드물게 1단위의 차이만 관찰된다. 이런 FEMS table을 그대로 사용할 경우, CNN 기반의 AI 알고리즘이 parameter(weights)를 학습하기 어려워진다는 문제가 발생하였다. 따라서, FEMS table 내의 모든 영역에서 비슷한 범위의 값을 갖도록 추가적인 전처리 작업을 수행하여 FEMS_Z table을 생성하였다.
구체적으로는, 표 2의 training 데이터에 포함되어 있는 건강인 99명을 Z 표준화 참조군 (Z Reference set)으로 선별한 다음, 선별한 Z 표준화 참조군에서, FEMS table 내의 각 위치에서 관찰되는 값의 평균과 표준편차를 계산하였다.
예를 들어, 99명의 Z 표준화 참조군의 FEMS table에서 핵산단편 크기가 180이면서 AAAA 모티프를 갖는 위치 (a)에 있는 값의 평균 및 표준편차를 계산하여 각각 Mean_180_AAAA, SD_180_AAAA로 정의하였다.
상기 과정에서 계산된 FEMS table 내의 각 위치에서의 평균, 표준편차 값을 이용해 Z 표준화를 수행하였다. 구체적으로, 핵산단편 크기가 180이면서 AAAA 모티프를 갖는 위치에서 관찰되는 빈도값을 Value_180_AAAA라 했을 때, Z_180_AAAA = (Value_180_AAAA - Mean_180_AAAA) / SD_180_AAAA 의 수식으로 Z 표준화를 수행하였다(도 7).
표준편차 값이 너무 작아 일반적인 범위 (-5 ~ 5) 밖으로 계산되는 Z 표준화 값의 영향을 배제하기 위해, Z < -5 인 값은 -5로, Z > 5 인 값은 5로 하여 Z 표준화 값의 최소 및 최대 범위를 제한하였다.
위의 과정으로 기존 FEMS table 내의 모든 위치의 값을 Z 표준화한 값으로 치환한 2D 벡터를 FEMS_Z table로 정의하였으며, FEMS table과 FEMS_Z table을 시각화해서 비교하면 도 8에 기재된 바와 같다.
FEMX_Z table 또한, Fragment Size에 관계없는 Fragment End Motif별 frequency 정보를 추가하기 위해 열 합 (column sum) 값을 위의 2차원 벡터 가장 아래에 4번 추가하고, Fragment End Motif에 관계없는 Fragment Size 정보를 추가하기 위해 행 합 (row sum) 값을 위의 2차원 벡터 가장 우측에 4번 추가하는 Edge Summary 단계를 포함하여 생성하였다.
실시예 4. CNN 모델 구축 및 학습 과정
FEMS table 또는 FEMS_Z table 2차원 벡터를 인풋으로 하여 건강인, 신경모세포종 환자를 구분하는 CNN 인공지능 모델을 학습하였다.
표 2의 데이터 세트를 사용하였으며, Training 데이터 세트는 모델 학습에, Validation 데이터 세트는 hyper-parameter tuning에, Test 데이터 세트는 최종 모델 성능 평가에 사용하였다.
CNN 모델의 기본적인 구성은 도 11과 같다. 활성함수는 sigmoid를 사용하였고, convolution layer는 3개를 사용하였고, 13개의 10*10 patch를 사용하였다. Pooling 방식은 max를 이용했고 2x2 patch를 이용하였다. Fully connected layer는 4개를 사용하였고 454개의 hidden node가 포함되어 있다. 마지막으로 sigmoid 함수값을 이용해 최종 DPI 값을 계산하였다.
Hyper-parameter tuning 과정은 CNN 모델을 이루는 여러 parameter(convolution layer 수, dense layer 수, convolution filter 수 등) 값을 최적화하는 과정으로, Hyper-parameter tuning 과정에는 Bayesian optimization 및 grid search 기법을 사용하였고, Training loss 대비 validation loss가 증가하기 시작하면 모델이 과적합(Overfitting) 되었다 판단되어 model 학습을 중단하였다.
Hyper-parameter tuning을 통해서 얻어진 여러 모델의 성능을 Validation 데이터 세트를 이용하여 비교한 다음, Validation 데이터 세트 성능이 가장 좋은 모델을 최적의 모델이라 판단하고, Test 데이터 세트로 최종 성능 평가를 수행하였다.
상기 과정을 거쳐서 만들어진 모델에 임의의 샘플의 FEMS_Z table 2차원 벡터를 넣어 주면, CNN 모델의 마지막 layer인 sigmoid 함수를 통해 해당 샘플의 건강인일 확률, 신경모세포종 환자일 확률이 각각 계산되고, 이 확률 값을 Deep Probability Index (DPI)라 정의하였다.
실시예 5. FEMS_Z table을 사용하여 구축한 딥러닝 모델의 성능 확인
5-1 성능 확인
실시예 4에서 구축한 FEMS 딥러닝 모델 및 FEMS_Z 딥러닝에서 출력한 DPI 값의 성능을 테스트하였다. 모든 샘플은 Train, Validation, Test 그룹으로 나눠 진행했고, Train 샘플을 이용하여 model을 구축한 다음 Validation 그룹 및 Test 그룹의 샘플을 이용해서, Train 샘플을 이용해 만든 모델의 성능을 확인하였다.
Figure PCTKR2023019488-appb-img-000005
그 결과, 표 3 및 도 9에 기재된 바와 같이, Accuracy는 Train, Valid, Test 그룹에서 FEMS 모델에서는 각각 100%, 100%, 98.7%인 반면, FEMS_Z 모델에서는 모두 100%인 것을 확인하였고, 또한, F1-score, precision 및 AUC 모두 FEMS_Z table을 input으로 학습한 모델의 성능이 뛰어난 것을 확인할 수 있다.
5-2. DPI 분포 확인
실시예 5-1에서 구축한 딥러닝 모델의 출력값인 DPI 값이 실제 환자와 얼마나 일치하는 지를 확인하였다.
그 결과, 도 10에 기재된 바와 같이 FEMS table 학습 모델 보다 FEMS_Z table 학습 모델이 정상을 정상으로, 신경모세포종 환자로 분류할 확률이 더 높은 것을 확인하였다.
이상으로 본 발명 내용의 특정한 부분을 상세히 기술하였는 바, 당업계의 통상의 지식을 가진 자에게 있어서 이러한 구체적 기술은 단지 바람직한 실시 양태일 뿐이며, 이에 의해 본 발명의 범위가 제한되는 것이 아닌 점은 명백할 것이다. 따라서, 본 발명의 실질적인 범위는 첨부된 청구항들과 그것들의 등가물에 의하여 정의된다고 할 것이다.
본 발명에 따른 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법은 벡터화된 데이터를 생성하여 AI 알고리즘을 이용하여 분석하기 때문에 리드 커버리지가 낮더라도 높은 민감도와 정확도를 나타내어 유용하다.
전자파일 첨부하였음.

Claims (18)

  1. (a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계;
    (b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
    (c) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 및 핵산단편의 크기를 도출하는 단계;
    (d) 상기 도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용하여 벡터화된 데이터를 생성하는 단계;
    (e) 상기 벡터화된 데이터를 후처리하는 단계;
    (f) 상기 후처리된 데이터를 학습된 인공지능 모델에 입력하여 분석한 출력 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및
    (g) 상기 출력 결과값 비교를 통해 암 종을 예측하는 단계를 포함하는 암 진단 및 암 종 예측을 위한 정보의 제공방법.
  2. (a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계;
    (b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
    (c) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 및 핵산단편의 크기를 도출하는 단계;
    (d) 상기 도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용하여 벡터화된 데이터를 생성하는 단계;
    (e) 상기 벡터화된 데이터를 후처리하는 단계;
    (f) 상기 후처리된 데이터를 학습된 인공지능 모델에 입력하여 분석한 출력 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및
    (g) 상기 출력 결과값 비교를 통해 암 종을 예측하는 단계를 포함하는 암 진단 및 암 종 예측방법.
  3. 제1항 또는 제2항에 있어서, 상기 (a) 단계는 다음의 단계를 포함하는 방법으로 수행되는 것을 특징으로 하는 방법:
    (a-i) 생체시료에서 핵산을 수득하는 단계;
    (a-ii) 채취된 핵산에서 솔팅-아웃 방법(salting-out method), 컬럼 크로마토그래피 방법(column chromatography method) 또는 비드 방법(beads method)을 사용하여 단백질, 지방, 및 기타 잔여물을 제거하고 정제된 핵산을 수득하는 단계;
    (a-iii) 정제된 핵산 또는 효소적 절단, 분쇄, 수압 절단 방법(hydroshear method)으로 무작위 단편화(random fragmentation)된 핵산에 대하여, 싱글 엔드 시퀀싱(single-end sequencing) 또는 페어 엔드 시퀀싱(pair-end sequencing) 라이브러리(library)를 제작하는 단계;
    (a-iv) 제작된 라이브러리를 차세대 유전자서열검사기(next-generation sequencer)에 반응시키는 단계; 및
    (a-v) 차세대 유전자서열검사기에서 핵산의 서열정보(reads)를 획득하는 단계.
  4. 제1항 또는 제2항에 있어서, 상기 (c) 단계의 말단 서열 모티프는 핵산단편 양 말단의 2 내지 30개의 염기서열의 패턴인 것을 특징으로 하는 방법.
  5. 제1항 또는 제2항에 있어서, 상기 (c) 단계의 말단 서열 모티프 빈도는 전체 핵산 단편에서 검출된 각각의 모티프 수인 것을 특징으로 하는 방법.
  6. 제1항 또는 제2항에 있어서, 상기 (c) 단계의 핵산단편의 크기는 핵산단편의 5’ 말단에서 3’ 말단까지의 염기 개수인 것을 특징으로 하는 방법.
  7. 제1항 또는 제2항에 있어서, 상기 (d) 단계의 벡터화된 데이터는 핵산단편 말단 서열 모티프 종류를 X축으로 하고, 핵산단편의 크기를 Y축으로 하는 것을 특징으로 하는 방법.
  8. 제1항 또는 제2항에 있어서, 상기 (e) 단계는 다음의 단계를 포함하는 방법으로 수행하는 것을 특징으로 하는 방법:
    (e-i) 정상인 그룹에서 각 핵산단편 말단 서열 모티프의 종류와 핵산단편의 크기 별 빈도 값의 평균 및 표준편차를 계산하는 단계;
    (e-ii) 샘플의 각 핵산단편 말단 서열 모티프의 종류와 핵산단편의 크기 별 빈도 값에 정상인 그룹의 각 핵산단편 말단 서열 모티프의 종류와 핵산단편의 크기 별 빈도 값의 평균을 뺀 다음 각 핵산단편 말단 서열 모티프의 종류와 핵산단편의 크기 별 빈도 값의 표준 편차로 나누어 Z 표준화를 수행하여 Z 표준화 값을 도출하는 단계; 및
    (e-iii) 상기 (e-ii)에서 도출된 Z 표준화 값이 기준 범위 초과일 경우, 기준값으로 보정하는 단계.
  9. 제8항에 있어서, 상기 기준 범위는 -5 내지 5이며, 기준값은 -5 또는 5인 것을 특징으로 하는 방법.
  10. 제7항에 있어서, 상기 벡터화된 데이터는 핵산단편 말단 모티프별 빈도의 총합 및 핵산단편 크기별 빈도의 총합을 추가로 포함하는 것을 특징으로 하는 방법.
  11. 제1항 또는 제2항에 있어서, 상기 (f) 단계의 인공지능 모델은 건강인 벡터화된 데이터와 암이 있는 벡터화된 데이터를 구별할 수 있도록 학습하는 것을 특징으로 하는 방법.
  12. 제11항에 있어서, 상기 인공지능 모델은 합성곱 신경망(convolutional neural network, CNN), 심층 신경망(Deep Neural Network, DNN) 및 순환 신경망(Recurrent Neural Network, RNN)으로 구성된 군에서 선택되는 것을 특징으로 하는 방법.
  13. 제12항에 있어서, 상기 인공지능 모델이 CNN이고, binary classification 을 학습할 경우, 손실함수는 하기 수식 1로 표시되며, 상기 인공지능 모델이 CNN이고, Multi-class classification을 학습할 경우, 손실함수는 하기 수식 2으로 표시되는 것을 특징으로 하는 방법:
    Figure PCTKR2023019488-appb-img-000006
    Figure PCTKR2023019488-appb-img-000007
  14. 제1항 또는 제2항에 있어서, 상기 (f) 단계의 인공지능 모델이 입력된 벡터화된 데이터를 분석하여 출력하는 결과값은 DPI(Deep Probability Index)값인 것을 특징으로 하는 방법.
  15. 제1항 또는 제2항에 있어서, 상기 (f) 단계의 기준값은 0.5이며, 0.5 이상일 경우, 암 인 것으로 판정하는 것을 특징으로 하는 방법.
  16. 제1항 또는 제2항에 있어서,
    상기 (g) 단계의 출력 결과값 비교를 통해 암 종을 예측하는 단계는 출력 결과값 중, 가장 높은 값을 나타내는 암 종을 샘플의 암으로 판정하는 단계를 포함하는 방법으로 수행하는 것을 특징으로 하는 방법.
  17. 생체시료에서 핵산을 추출하여 서열정보를 해독하는 해독부;
    해독된 서열을 표준 염색체 서열 데이터베이스에 정렬하는 정렬부;
    정렬된 서열 기반의 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의크기를 도출하는 핵산단편 분석부;
    도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용한 벡터화된 데이터를 생성한 뒤, 후처리를 수행하는 데이터 생성부;
    생성된 후처리된 벡터화 데이터를 학습된 인공지능 모델에 입력하여 분석하고, 기준값과 비교하여 암 유무를 판정하는 암 진단부; 및
    출력된 결과값을 분석하여 암 종을 예측하는 암 종 예측부를 포함하는 암 진단 및 암 종 예측 장치.
  18. 컴퓨터 판독 가능한 저장 매체로서, 암 진단 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하되,
    (a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계;
    (b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
    (c) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 및 핵산단편의 크기를 도출하는 단계;
    (d) 상기 도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용하여 벡터화된 데이터를 생성하는 단계;
    (e) 상기 벡터화된 데이터를 후처리하는 단계;
    (f) 상기 후처리된 데이터를 학습된 인공지능 모델에 입력하여 분석한 출력 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및
    (g) 상기 출력 결과값 비교를 통해 암 종을 예측하는 단계를 통하여, 암 진단 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 암 진단 및 암 종 예측용 컴퓨터 판독 가능한 저장 매체.
PCT/KR2023/019488 2022-11-29 2023-11-29 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법 WO2024117792A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2022-0162987 2022-11-29
KR1020220162987A KR20240087868A (ko) 2022-11-29 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법

Publications (1)

Publication Number Publication Date
WO2024117792A1 true WO2024117792A1 (ko) 2024-06-06

Family

ID=91324588

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/019488 WO2024117792A1 (ko) 2022-11-29 2023-11-29 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법

Country Status (1)

Country Link
WO (1) WO2024117792A1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200101106A (ko) * 2019-02-19 2020-08-27 주식회사 녹십자지놈 혈중 무세포 dna 기반 간암 치료 예후예측 방법
KR20210067931A (ko) * 2019-11-29 2021-06-08 주식회사 녹십자지놈 인공지능 기반 염색체 이상 검출 방법
KR20220074088A (ko) * 2020-11-27 2022-06-03 주식회사 지씨지놈 인공지능 기반 암 진단 및 암 종 예측방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200101106A (ko) * 2019-02-19 2020-08-27 주식회사 녹십자지놈 혈중 무세포 dna 기반 간암 치료 예후예측 방법
KR20210067931A (ko) * 2019-11-29 2021-06-08 주식회사 녹십자지놈 인공지능 기반 염색체 이상 검출 방법
KR20220074088A (ko) * 2020-11-27 2022-06-03 주식회사 지씨지놈 인공지능 기반 암 진단 및 암 종 예측방법

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIANG PEIYONG, SUN KUN, PENG WENLEI, CHENG SUK HANG, NI MENG, YEUNG PHILIP C., HEUNG MACY M.S., XIE TINGTING, SHANG HUIMIN, ZHOU Z: "Plasma DNA End-Motif Profiling as a Fragmentomic Marker in Cancer, Pregnancy, and Transplantation", CANCER DISCOVERY, AMERICAN ASSOCIATION FOR CANCER RESEARCH, US, vol. 10, no. 5, 1 May 2020 (2020-05-01), US , pages 664 - 673, XP093007557, ISSN: 2159-8274, DOI: 10.1158/2159-8290.CD-19-0622 *
JIN CHAO, LIU XIAONAN, ZHENG WENYUAN, SU LIPING, LIU YANG, GUO XU, GU XIAOMING, LI HONGPING, XU BO, WANG GANG, YU JIYAN, ZHANG QIO: "Characterization of fragment sizes, copy number aberrations and 4‐mer end motifs in cell‐free DNA of hepatocellular carcinoma for enhanced liquid biopsy‐based cancer detection", MOLECULAR ONCOLOGY, ELSEVIER, vol. 15, no. 9, 1 September 2021 (2021-09-01), pages 2377 - 2389, XP093032654, ISSN: 1574-7891, DOI: 10.1002/1878-0261.13041 *
LEE TAE-RIM, AHN JIN MO, SOHN JOO HYUK, PARK SOOK RYUN, KIM MIN HWAN, KIM GUN MIN, SONG KI-BYUNG, JUN EUNSUNG, OH DONGRYUL, LEE JE: "Abstract 6371: Deep learning algorithm for multi-cancer detection and classification using cf-WGS", CANCER RESEARCH, AMERICAN ASSOCIATION FOR CANCER RESEARCH, US, vol. 82, no. 12_Supplement, 15 June 2022 (2022-06-15), US , XP093177007, ISSN: 1538-7445, DOI: 10.1158/1538-7445.AM2022-6371 *

Similar Documents

Publication Publication Date Title
WO2018143540A1 (ko) 인공신경망을 이용한 위암의 예후 예측 방법, 장치 및 프로그램
WO2021107676A1 (ko) 인공지능 기반 염색체 이상 검출 방법
WO2021154060A1 (en) Method of predicting disease, gene or protein related to queried entity and prediction system built by using the same
WO2022114631A1 (ko) 인공지능 기반 암 진단 및 암 종 예측방법
WO2023033329A1 (ko) 질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
WO2020045848A1 (ko) 세그멘테이션을 수행하는 뉴럴 네트워크를 이용한 질병 진단 시스템 및 방법
WO2017116123A1 (ko) 개인 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템
Kaufman et al. Gene expression of Caenorhabditis elegans neurons carries information on their synaptic connectivity
Zhang et al. A fast feature selection algorithm based on swarm intelligence in acoustic defect detection
WO2023080586A1 (ko) 세포유리 핵산단편 위치별 서열 빈도 및 크기를 이용한 암 진단 방법
WO2022124724A1 (ko) 기계 학습 기반의 예후 예측 방법 및 그 장치
WO2022250513A1 (ko) 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법
Pan et al. Attention based convolutional neural network for predicting RNA-protein binding sites
WO2024117792A1 (ko) 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법
WO2017116139A1 (ko) 개인 유전체의 유전변이정보를 이용한 생리활성변이 분석 시스템
WO2022250512A1 (ko) 조직 특이적 조절지역의 무세포 dna 분포를 이용한 인공지능 기반 암 조기진단 방법
WO2024080783A1 (ko) 인공지능 기술을 이용하여 pmhc에 대응되는 tcr 정보를 생성하기 위한 방법 및 장치
WO2022097844A1 (ko) 유전자 복제수 변이 정보를 이용하여 췌장암 환자의 생존 예후를 예측하는 방법
WO2022203437A1 (ko) 인공지능 기반 무세포 dna의 종양 유래 변이 검출 방법 및 이를 이용한 암 조기 진단 방법
WO2022225308A1 (ko) 음수 미포함 행렬 분해를 이용한 마이크로바이옴 데이터로부터의 미생물 상호작용 네트워크 분석 방법
WO2023075402A1 (ko) 메틸화된 무세포 핵산을 이용한 암 진단 및 암 종 예측방법
Bai et al. A unified deep learning model for protein structure prediction
WO2022250514A1 (ko) 세포유리 핵산과 이미지 분석기술 기반의 암 진단 및 암 종 예측 방법
CN112735532B (zh) 基于分子指纹预测的代谢物识别系统及其应用方法
Emam et al. Detection of mammalian coding sequences using a hybrid approach of chaos game representation and machine learning