WO2023214620A1 - 진양성 변이 및 위양성 변이를 구별하는 piseq 장치 및 알고리즘 - Google Patents

진양성 변이 및 위양성 변이를 구별하는 piseq 장치 및 알고리즘 Download PDF

Info

Publication number
WO2023214620A1
WO2023214620A1 PCT/KR2022/012154 KR2022012154W WO2023214620A1 WO 2023214620 A1 WO2023214620 A1 WO 2023214620A1 KR 2022012154 W KR2022012154 W KR 2022012154W WO 2023214620 A1 WO2023214620 A1 WO 2023214620A1
Authority
WO
WIPO (PCT)
Prior art keywords
mutation
mutations
reads
positive
genome
Prior art date
Application number
PCT/KR2022/012154
Other languages
English (en)
French (fr)
Inventor
박승구
이재학
Original Assignee
(주)디엑솜
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)디엑솜 filed Critical (주)디엑솜
Publication of WO2023214620A1 publication Critical patent/WO2023214620A1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Definitions

  • the present invention relates to a PiSeq device and algorithm for distinguishing between true positive mutations and false positive mutations.
  • next-generation sequencing (NGS) test process not only cannot be analyzed with high sensitivity, but also is sensitive due to PCR errors that occur during NGS library production or sequencing errors that occur in NGS equipment. Mutations cannot be detected, and usually have a detection limit of about 1 to 5%.
  • a molecular barcode (or molecular index) is a 6 to 12 base sequence made by randomly combining the four bases A, T, C, and G at each position, so that each DNA strand in the sample is assigned a different barcode. do. This is a method in which the DNA molecules of the original sample are tagged differently for each strand, a large amount of NGS data is obtained, and then each barcode is analyzed separately. In theory, PCR replication products derived from one strand of DNA all have the same base sequence.
  • NGS sequencing reads with the same barcode must have the same base sequence, and the same applies to DNA strands with mutations. If the mutation rate in an NGS sequencing read with a specific barcode is not 100%, it can be considered a random error caused by sequencing or PCR error. Removing errors in this way can increase detection sensitivity by filtering out true positive mutations.
  • the molecular barcoding method has been applied as a highly sensitive test method, especially in cases where the mutation rate in cancer tissue is low, and recently, it is a liquid that detects mutations in cancer-derived DNA (cell-free tumor DNA) that exists in trace amounts in plasma.
  • Molecular barcoding is attracting attention as the most promising testing method for liquid biopsy.
  • this method can sensitively and accurately detect cancer mutations (Wang et al. Nature 2014; Rashid et al. Blood 2014; Schmitt et al. PNAS 2012; Schmitt et al. Blood 2015).
  • duplex sequencing has the disadvantage of not being able to correct for barcode hopping (barcode hopping or index hopping), a phenomenon in which both barcodes become entangled differently during the PCR amplification process when molecular barcodes are combined by attaching two barcodes to both ends of DNA.
  • a general molecular barcode compares the exact base sequence obtained through analysis with a standard base sequence to identify gene mutations, and checks gene CNV, chromosome CNV, and each database to classify the gene mutations into grades to diagnose the patient's disease. Predict and diagnose. However, because all of these processes are not automated, they take a lot of time and require a lot of specialized manpower.
  • the present invention provides a device and algorithm that can efficiently distinguish random errors occurring during sequencing or PCR, especially false-positive mutations and true-positive mutations. We would like to provide.
  • the first aspect of the present application is a device for determining false-positive mutations in the genome, comprising a mutation location-based clustering unit that classifies genomic reads by position group and a common sequence for each position group.
  • a device is provided that includes a determination unit that extracts mutations found in each common sequence and determines them as true-positive or false-positive mutations.
  • a second aspect of the present application is a method for determining false-positive mutations in the genome, comprising the steps of classifying genome reads by position group, extracting a common sequence for each position group, and extracting a common sequence for each position group.
  • a method is provided including the step of determining mutations found in each sequence as true-positive or false-positive mutations.
  • steps from sequence extraction to information analysis can be streamlined into one device or algorithm, saving time and cost.
  • the device and algorithm according to the present application it is possible to detect somatic mutations that exist at a low rate or other mutations of 0.01% or less using next-generation sequencing.
  • FIG. 1A is a block diagram of a PiSeq device according to the present disclosure.
  • Figure 1b is a diagram briefly showing the principle of assigning a molecular barcode to a genomic location using PiSeq's unique algorithm.
  • FIG. 1C is a flowchart of a method for predicting a somatic mutation genotype through a method of assigning a molecular barcode to the specified genomic location using NGS data according to an embodiment.
  • Figure 1d is a diagram showing sequencing errors that occur when using actual data.
  • Figure 1e is a diagram showing the result (true variant) of applying the PiSeq device or algorithm to actual data, leaving only true positive variants.
  • Figure 2a is a diagram showing the conditions for placement by AF (allele frequency) and sequencing of the standard materials used in Examples 2 to 5.
  • Figure 2b is a diagram showing the results of estimating LoD (Limit of Detection; AF at the point showing 95% sensitivity) for the standard material according to Example 2.
  • Figure 2c is a diagram showing data comparing the AF (x-axis) of the standard material and the AF (y-axis) shown by PiSeq results according to Example 2.
  • Figure 2d is a diagram showing data comparing the AF (x-axis) of the standard material and the AF (y-axis) shown by PiSeq results for all mutations according to Example 2.
  • Figure 2e is a diagram showing data comparing the AF (x-axis) of the standard material and the AF (y-axis) shown by PiSeq results for SNVs (Single Nucleotide Variants) according to Example 2.
  • Figure 2f is a diagram showing data comparing the AF (x-axis) of the standard material and the AF (y-axis) shown by the PiSeq results for INDELs (Insertion-Deletion mutations) according to Example 2.
  • Figure 3a is a diagram showing a list of the top 30 genes with the most mutations and types of mutations as a result of analyzing PiSeq (ctDNA) data from clinical samples of 50 cancer patients according to Example 3.
  • FIG. 3b is a diagram showing the tumor mutation burden (TMB) correlation in tissue and blood according to Example 3.
  • Figure 3c is a diagram showing the distribution of TMB and AF seen after data analysis using the PiSeq device or algorithm for samples for each cancer type according to Example 3.
  • Figure 3d is a diagram showing the distribution of mutations detected in ctDNA and tissue according to Example 3.
  • Figure 4 is a diagram showing statistical values of sequencing results analyzed through the PiSeq algorithm for standard materials, cancer patient samples, and normal samples according to Example 4.
  • Figure 5a is a diagram showing the validation result of gene copy number analyzed through the PiSeq algorithm after sequencing the cell line sample through the TMB500 panel according to Example 5 of the present application.
  • Figure 5b is a diagram showing CNVs analyzed by PiSeq in a case where the copy number variation of a specific gene in tumor cells is high according to Example 5.
  • Figure 5c is a partial enlarged view of Figure 5b.
  • Figure 5d is a diagram showing CNVs analyzed by PiSeq in a case where the copy number variation of a specific gene in tumor cells is low according to Example 5.
  • Figure 5e is a partial enlarged view of Figure 5d.
  • Figure 5f is an example diagram showing chromosome-level CNVs analyzed by PiSeq according to Example 5.
  • Figure 5g is an example diagram showing chromosome-level CNVs analyzed by PiSeq according to Example 5.
  • Figure 5h shows chromosomal level analysis using WES (Whole exome sequencing) using breast cancer (BRCA; breast cancer) data from The Cancer Genome Atlas (TCGA) database according to Example 5 and the TMB 500 panel to which the device or method according to the present application is applied.
  • WES Whole exome sequencing
  • BRCA breast cancer
  • TCGA Cancer Genome Atlas
  • Figure 5i shows chromosomal level analysis using WES (Whole exome sequencing) using colorectal cancer (COAD; colorectal cancer) data from the TCGA (The Cancer Genome Atlas) database according to Example 5 and the TMB 500 panel to which the device or method according to the present application is applied.
  • WES Whole exome sequencing
  • COAD colorectal cancer
  • TCGA The Cancer Genome Atlas
  • FIG. 5j shows whole exome sequencing (WES) and the device or method according to the present application using liver cancer and intrahepatic bile duct cancer (LIHC) data from the TCGA (The Cancer Genome Atlas) database according to Example 5.
  • This diagram shows the results of analyzing CNVs at the chromosome level using the applied TMB 500 panel.
  • Figure 5k shows chromosomal level analysis using the TMB 500 panel to which whole exome sequencing (WES) and the device or method according to the present application were applied using lung cancer (LUSC; lung cancer) data from the TCGA (The Cancer Genome Atlas) database according to Example 5.
  • WES whole exome sequencing
  • LUSC lung cancer
  • TCGA The Cancer Genome Atlas
  • Figure 5l shows chromosomal level analysis using WES (Whole exome sequencing) using stomach cancer (STAD) data from The Cancer Genome Atlas (TCGA) database according to Example 5 and the TMB 500 panel to which the device or method according to the present application is applied.
  • WES Whole exome sequencing
  • STAD stomach cancer
  • TCGA Cancer Genome Atlas
  • Figure 5m shows chromosome sequencing using WES (Whole exome sequencing) using ovarian cancer (OV) data from The Cancer Genome Atlas (TCGA) database according to Example 5 and the TMB 500 panel to which the device or method according to the present application is applied.
  • WES Whole exome sequencing
  • OV ovarian cancer
  • TCGA Cancer Genome Atlas
  • the term "combination(s) thereof" included in the Markushi format expression means a mixture or combination of one or more selected from the group consisting of the components described in the Markushi format expression, It means containing one or more selected from the group consisting of the above components.
  • references to “A and/or B” mean “A or B, or A and B.”
  • 'PiSeq' or 'PiSeq' is a common name for a device or algorithm that distinguishes between true positive and false positive mutations claimed by the present application.
  • a 'true-positive mutation' refers to a mutation that exists in the actual genome, and reads with and without a true-positive mutation coexist at a specific sequence position.
  • 'False-positive' ‘Mutation’ is not actually a mutation, but rather a replication error.
  • False positive mutations mainly occur during gene replication processes such as PCR. If it occurs during the first replication, the false positive mutation may be present in all the cloned reads, but with a high probability, it will occur during the replication process after the first replication. In this case, among several cloned reads, there are two reads, one with the false positive mutation and one without. They coexist. Because of these characteristics, true positive mutations and false positive mutations must be distinguished from each other, but in reality, the distinction is not easy.
  • 'TMB 500 panel' refers to a panel produced to confirm cancer-related genetic mutation information and tumor mutation burden (TMB). It consists of approximately 540 genes related to cancer, and the size of the target region in the target enrichment panel is approximately 1.6 Mega basepair (Mbp).
  • 'common sequence extraction refers to comparing the gene sequences for each position group, determining the mutations present in each sequence as false positive or true positive mutations, and then extracting the representative sequence from which the false positive mutations are excluded. it means.
  • the first aspect of the present invention is a device for determining false-positive mutations in the genome, comprising a mutation location-based clustering unit that classifies genomic reads by position group, and a mutation location-based clustering unit that classifies genomic reads by position group, Provided is a device including a determination unit that determines a mutation as a true-positive or false-positive mutation (see FIG. 1A).
  • genomes to which the present invention can be applied include gDNA and cfDNA.
  • the mutation location-based clustering unit can map the genome segmented during the sequencing process to a reference sequence and then classify reads with the same start and end points into one position group.
  • 'same start and end point' means that the sequence containing one or more bases at both ends of the reads is the same between the reads.
  • it does not mean only sequences that are 100% identical in genetic sequence, and should be interpreted to include sequences that a person skilled in the art would consider to be at the same level. Therefore, reads within the same position group correspond to PCR amplification products (duplicates) for the same read.
  • the determination unit will be described with reference to FIG. 1B.
  • the mutation positions of reads within the same position group are compared.
  • the reads within a position group should all have the same sequence because they are PCR amplification products of the same read.
  • the mutation (1) if there are both reads with and without a mutation (variant X) in a specific sequence within the same position group, the mutation
  • variant Y may be a true positive variant.
  • the determination unit may determine that mutation Y is a true positive mutation when mutation Y exists in all reads of at least two position groups.
  • the discriminator according to the present application can efficiently classify and remove random errors that occur during sequencing or PCR and select only true-positive mutations, thereby increasing the sensitivity of mutation detection.
  • the first aspect of the present application may further include an extraction unit that extracts a common sequence based on the results of the discriminator.
  • the first aspect of the present application may further include an analysis unit that analyzes the information of the genome and links it with a database.
  • the genomic information may include QC (Quality Control) of sequencing results, Gene & chromosome CNV (Copy Number Variation), SNP (Single Nucleotide polymorphisms), Indel, or Hotspot Mutation results.
  • the analysis unit may include a step of assigning clinical significance (annotation) to the mutations identified through the cluster unit and discrimination unit using a database.
  • the database may include OncoKB, Mycancer genome, or OMIM database.
  • the second aspect of the present application is a method for determining false-positive mutations in the genome, including the steps of classifying genomic reads by position group, extracting common sequences between the position groups, and extracting common sequences between the position groups.
  • a method is provided including the step of determining mutations found in each sequence as true-positive or false-positive mutations.
  • the second aspect relates to a method applied to the device of the first aspect. Overlapping descriptions from the first aspect to the second aspect have been omitted, and all content common to each aspect is equally applied.
  • Paired-end sequence raw reads can be organized and filtered to produce clear reads of good quality (Phred Q score>30). Paired-end sequencing reads derived using Burrows-Wheeler Alignment (BWA 0.5.9), Genome Analysis Toolkit (GATK), and Samtools can be aligned to the human reference genome hg19.
  • BWA 0.5.9 Burrows-Wheeler Alignment
  • GATK Genome Analysis Toolkit
  • Samtools can be aligned to the human reference genome hg19.
  • the PiSeq algorithm can be applied to preprocessed reads, detect mutations, and filter out true positive mutations and false positive mutations.
  • the process is the same as the process described for the first and second aspects above.
  • SNVs Single nucleotide variants
  • INDELs short insertions and deletions
  • SNVs Single nucleotide variants
  • INDELs short insertions and deletions
  • Analysis of SNV and INDEL can be done using dbSNP135, dbNSFP COSMIC, 1000 Genomes variants databases, and software programs SNPEff, SIFT, PolyPhen2, LRT, PhyloP, Mutation_Taster, Mutation_Assessor, FATHMM, and GERP_NR. These mutations can be confirmed by visualization in the Interactive Genomic Viewer program and NextGENe v2.3.1. (Soft genetics, Inc.).
  • the present invention can analyze QC, Gene & chromosome CNV, SNP, Indel, and Hotspot Mutation data for the results obtained through the PiSeq algorithm at once through a series of automated systems. It is linked to external data OncoKB, Mycancer genome, and OMIM database, enabling detailed result analysis of mutation information, related diseases, treatments, etc.
  • NGS library preparation (End-repair ⁇ PrePCR) was performed using the Seraseq TM ctDNA Mutation Mix v2 AF (Seracare) sample, known as a standard material, and target selection was performed using a 540 gene panel (TMB 500 panel, a ctDNA panel). The process (target enrichment) was carried out.
  • the DNA input value (Input DNA) was 30ng/35uL, and PrePCR was performed for 10 cycles.
  • a target enrichment process was performed by pooling the 8 samples that had completed pre-PCR into one pool for a total of 1,500 ng, and 12 cycles of post-PCR were performed.
  • the coefficient of variation (CV) of reproducibility between repeated experiments was 14.17%, 14.38%, and 19.83% for each AF sample (see Figures 2d, 2e, and 2f).
  • the estimated VAF was Single Nucleotide Variants (see Figures 2d, 2e, and 2f). SNVs), Insertions/Deletions (Indels), and all mutations showed a positive correlation with the AF of the standard material, with r-square values of 0.882, 0.864, and 0.871, respectively.
  • the device or method according to the present application effectively distinguishes false positive mutations and thus enables accurate AF prediction.
  • NGS library preparation (End-repair ⁇ PrePCR) was performed using the sample, and target enrichment was performed using a panel of 540 genes.
  • the DNA input value (Input DNA) was 30ng/35uL, and PrePCR was performed for 10 cycles.
  • a target enrichment process was performed by pooling the 8 samples that had completed pre-PCR into one pool for a total of 1,500 ng, and 12 cycles of post-PCR were performed.
  • TMB Tumor Mutation Burden
  • Mutations detected only in blood (plasma) are diverse, but genes with high VAF (0.2 - 66.2%) include TP53, BCORL1, ATR, KRAS, and CTNNB1, which may reflect tumor heterogeneity in blood (plasma). (see Figure 3d)
  • the device or method according to the present application can effectively distinguish false positive mutations, and thus accurate detection of actual mutations is also possible.
  • cancer patient samples cancer patients
  • healthy controls health controls
  • 'Duplicates' shows the ratio estimated to be a product amplified by PCR among all NGS raw data
  • 'Average depth' refers to the specific area remaining after excluding data with low base quality and mapping quality.
  • 'On-target' is the average of the number of leads
  • 'On-target' is the percentage of data included in the target area
  • '% Covered' is 'Average depth' of Nx (for example, 100x means 100 times) in the target area. It refers to the ratio of the included area.
  • the cancer patient sample group used samples from 50 patients with gastric cancer, pancreatobiliary cancer, and other advanced cancers (34 Gastric cancer, 12 Pancreatobiliary cancer, 1 hepatocellular carcinoma, 1 Neuroendocrine tumor, 1 Colon Cancer, Ovarian Cancer). cancer (1 person)
  • the normal sample group used samples from 11 people who had not been diagnosed with cancer.
  • the DNA input value (Input DNA) was 30ng/35uL, and PrePCR was performed for 10 cycles.
  • a target enrichment process was performed by pooling the 8 samples that had completed pre-PCR into one pool for a total of 1,500 ng, and 12 cycles of post-PCR were performed.
  • the device or method according to the present application can effectively distinguish false positive mutations, thereby providing accurate NGS QC information.
  • the copy numbers of the genes tested were 31, 28, 12, and 23.
  • NGS library preparation (End-repair ⁇ PrePCR) was performed using the sample, and target enrichment was performed using a 540 gene panel (TMB 500 panel).
  • the DNA input value (Input DNA) was 30ng/35uL, and PrePCR was performed for 10 cycles.
  • a target enrichment process was performed by pooling the 8 samples that had completed pre-PCR into one pool for a total of 1,500 ng, and 12 cycles of post-PCR were performed.
  • CNVs of EGFR, ERBB2, and FGFR2 were detected up to a tumor cell fraction of 2.5%.
  • Figures 5f and 5g are diagrams showing CNVs at the chromosome level.
  • the graphs in the figures are normalized values. If Log2ratio converges to 0, it is normal. If it is not 0, it means that CNVs exist in the corresponding region.
  • CNVs at the chromosome level were analyzed through WES (Whole exome sequencing) and TMB 500 panel using data from the TCGA (The Cancer Genome Atlas) database and Piseq (see Figures 5h to 5m).
  • BRCA Breast cancer
  • STAD stomach cancer
  • LUSC lung cancer
  • COAD colorectal cancer
  • LIHC intrahepatic bile duct cancer
  • OV ovarian cancer
  • the use of the TMB 500 ctDNA panel and the device or method according to the disclosure can detect druggable mutations and It was confirmed that it was feasible in clinical samples to estimate the value. Therefore, the device or method according to the present application can effectively distinguish mutations during sequencing and contribute to accurate analysis of results after sequencing.

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Immunology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Pathology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 인위적인 바코드 시퀀스가 필요 없기 때문에 특수 제작된 어댑터(adapter)를 사용할 필요가 없고 바코드를 추가로 시퀀싱해야 하는 낭비를 줄일 수 있으며, 바코드 교환의 영향으로부터 자유로울 수 있는 바, 진양성(true positive) 변이를 효과적으로 걸러낼 수 있으며, 검출 민감도를 높일 수 있다. 또한 서열 추출부터 정보 분석의 단계를 하나의 장치 또는 알고리즘으로 일률화하여 시간과 비용을 절약할 수 있다. 일 실시예에 따르면 본원에 따른 장치 및 알고리즘을 활용하면 차세대 염기서열 분석을 이용하여 낮은 비율로 존재하는 체성돌연변이(somatic mutation)를 검출하거나 기타 0.01% 이하의 돌연변이를 검출할 수 있다.

Description

진양성 변이 및 위양성 변이를 구별하는 PISEQ 장치 및 알고리즘
본 발명은 진양성 변이 및 위양성 변이를 구별하는 PiSeq 장치 및 알고리즘에 관한 것이다.
일반적으로, 차세대염기서열분석(next-generation sequencing, NGS) 검사과정은 높은 민감도로 분석할 수 없을 뿐 아니라, NGS 라이브러리(library) 제작중 발생하는 PCR 에러 혹은 NGS 장비에서 발생하는 시퀀싱 에러 때문에 민감하게 돌연변이를 검출할 수 없으며, 통상적으로 1~5% 정도 검출 한계를 가지게 된다.
이러한 검출 한계를 극복하기 위하여 개발된 것이 분자바코드 방법이다. 분자바코드 법은 2011년 처음 개발된 후 여러 분야에서 적용이 확대되고 있다. 분자바코드(molecular barcode 혹은 molecular index)는 6~12 개 정도 되는 염기서열로서 각 위치 마다 A, T, C, G 네 가지 염기를 무작위로 조합하여 만든 것으로 시료의 DNA 가닥 하나마다 다른 바코드가 붙도록 한다. 이는 원 시료의 DNA 분자가 가닥별로 다르게 표기(tagging)되고 많은 양의 NGS 데이터를 얻은 후 각 바코드 별로 따로 분석을 하는 방식이다. 이론적으로 한 가닥의 DNA에서 유래한 PCR 복제 산물은 모두 같은 염기서열을 가진다. 따라서 같은 바코드를 가진 NGS 시퀀싱 리드(read)는 동일한 염기서열을 가져야 하며, 변이가 있는 DNA 가닥도 마찬가지이다. 만일 특정 바코드를 가진 NGS 시퀀싱 리드에서 변이의 비율이 100%가 아니라면 이는 시퀀싱 혹은 PCR 에러에 의해 생긴 것(random error)으로 간주할 수 있다. 이렇게 에러를 제거하면 진양성(true positive) 변이를 걸러낼 수 있기 때문에 검출 민감도를 높일 수 있다.
최근 들어 특히 암 조직에서 돌연변이 비율이 낮은 경우에 민감도 높은 검사법으로 분자바코드 법이 적용되고 있고 최근에는 혈장(plasma)에 극미량으로 존재하는 암 유래 DNA (cell-free tumor DNA)의 돌연변이를 검출하는 액체생검(liquid biopsy)에 있어 분자바코드 법이 가장 유망한 검사법으로 주목받고 있다. 최근 여러 연구에서 이러한 방법으로 암 돌연변이를 민감하고 정확하게 검출할 수 있음을 입증하였다(Wang et al. Nature 2014; Rashid et al. Blood 2014; Schmitt et al. PNAS 2012; Schmitt et al. Blood 2015).
분자 바코드의 문제점은 PCR 에러를 확인하기 어렵다는 것에 있다(Wikipedia 및 Kennedy et al. Nat Protocols 2014). 분자바코드를 이용하여도 PCR 초반cycle에 발생하는 에러는 매우 감별이 어렵다. 이를 극복하기 위해서 duplex sequencing (Kennedy et al. Nat Protocols 2014) 등이 개발되었다. 그러나 duplex sequencing은 분자 바코드는 DNA 양 끝에 두 개의 바코드를 붙여 조합하는 경우 PCR 증폭 과정에서 양쪽 바코드가 서로 다르게 엉키는 현상인 바코드 교환(barcode hopping 혹은 index hopping)을 교정할 수 없는 단점이 있다. 또한 분자바코드를 만들기 위해서는 6~12 개 정도 되는 인위적인 염기서열로 된 올리고뉴클레오티드(oligonucleotide)로 된 어댑터(adapter)를 만들어야 하는 번거로움이 있고, 분자바코드 부위를 추가로 시퀀싱해야 하기 때문에 이에 대한 시약비용이 추가로 들게 되는 실정이다.
일반적인 분자 바코드는 분석을 통해 얻어진 정확한 염기서열을 표준 염기서열과 비교하여, 유전자의 변이를 확인하고 gene CNV, chromosome CNV 및 각각의 데이터 베이스를 확인하여 해당 유전자의 변이를 등급별로 나누어 환자의 질병을 예측하고 진단한다. 그러나 이 모든 일련의 과정이 한번에 자동화 되어 있지 않기 때문에 많은 시간을 소요하게 되고, 많은 전문 인력을 필요로 하게 된다.
본 발명은 위 문제를 해결하기 위해, 시퀀싱 혹은 PCR 중에 발생한 에러(random error), 특히 위양성 변이(false-positive mutation)와 진양성 변이(true-positive mutation)을 효율적으로 구별할 수 있는 장치 및 알고리즘을 제공하고자 한다.
또한 위 변이의 구별 이후 대표 서열을 추출하여 유전체의 정보를 분석하는 단계, 분석한 정보를 외부 데이터와 연동하는 단계를 일률화하고자 한다.
상기 과제를 해결하기 위해, 본원은 다음과 같은 발명을 제공한다.
본원의 제1측면은 유전체의 위양성(false-positive) 변이를 판별하는 장치 에 있어서, 유전체 리드(read)를 포지션 그룹(position group) 별로 분류하는 변이 위치 기반 군집부 및 상기 포지션 그룹마다 공통배열을 추출하고 각 공통배열마다 발견되는 변이를 진양성(true-positive) 또는 위양성(false-positive) 변이로 판별하는 판별부를 포함하는 장치를 제공한다.
본원의 제2측면은 유전체의 위양성(false-positive) 변이를 판별하는 방법에 있어서, 유전체 리드(read)를 포지션 그룹(position group) 별로 분류하는 단계 및 상기 포지션 그룹마다 공통배열을 추출하고 각 공통배열마다 발견되는 변이를 진양성(true-positive) 또는 위양성(false-positive) 변이로 판별하는 단계를 포함하는 방법을 제공한다.
위 과제의 해결 수단은 제한된 것이 아니며, 통상의 기술자가 용이하게 이해할 수 있는 모든 범위의 수단을 모두 포함하는 것으로 해석되어야 한다.
본 발명은 인위적인 바코드 시퀀스가 필요 없기 때문에 특수 제작된 어댑터(adapter)를 사용할 필요가 없고 바코드를 추가로 시퀀싱해야 하는 낭비를 줄일 수 있으며, 바코드 교환의 영향으로부터 자유로울 수 있는 바, 진양성(true positive) 변이를 효과적으로 걸러낼 수 있으며, 검출 민감도를 높일 수 있다.
또한 서열 추출부터 정보 분석까지의 단계를 하나의 장치 또는 알고리즘으로 일률화하여 시간과 비용을 절약할 수 있다.
일 실시예에 따르면 본원에 따른 장치 및 알고리즘을 활용하면 차세대 염기서열 분석을 이용하여 낮은 비율로 존재하는 체성돌연변이(somatic mutation)를 검출하거나 기타 0.01% 이하의 돌연변이를 검출할 수 있다.
도 1a는 본원에 따른 PiSeq 장치에 대한 블록도이다.
도 1b는 PiSeq의 고유한 알고리즘으로 유전체 위치로 분자 바코드를 할당하는 방법의 원리를 간략히 나타낸 도면이다.
도 1c는 일 실시예에 따라 NGS 데이터를 이용하여 상기 명시된 유전체 위치로 분자 바코드를 할당하는 방법을 통한 체세포 돌연변이 유전형을 예측하는 방법의 순서도를 도시한 도면이다.
도 1d는 실제 데이터를 사용했을 때 나타나는 시퀀싱 에러(Sequencing error)를 나타낸 도면이다.
도 1e는 실제 데이터에 대해 PiSeq 장치 또는 알고리즘을 적용하여 진양성 변이만을 남긴 결과(True variant)를 나타낸 도면이다.
도 2a는 실시예 2 내지 5에서 사용된 표준물질의 AF(allele frequency)와 시퀀싱(sequencing) 별 배치에 대한 조건을 나타낸 도면이다.
도 2b는 실시예 2에 따라 표준물질에 대한 LoD (Limit of Detection; 95%의 sensitivity를 보이는 지점의 AF)를 추정한 결과를 나타낸 도면이다.
도 2c는 실시예 2에 따라 표준물질의 AF (x축)와 PiSeq 결과가 보여주는 AF (y축)를 상대비교하는 데이터를 나타낸 도면이다.
도 2d는 실시예 2에 따라 모든 변이에 대해 표준물질의 AF (x축)와 PiSeq 결과가 보여주는 AF (y축)를 상대비교하는 데이터를 나타낸 도면이다.
도 2e는 실시예 2에 따라 SNVs(Single Nucleotide Variants)에 대해 표준물질의 AF (x축)와 PiSeq 결과가 보여주는 AF (y축)를 상대비교하는 데이터를 나타낸 도면이다.
도 2f는 실시예 2에 따라 INDELs(Insertion-Deletion mutations)에 대해 표준물질의 AF (x축)와 PiSeq 결과가 보여주는 AF (y축)를 상대비교하는 데이터를 나타낸 도면이다.
도 3a는 실시예 3에 따라 여러 암환자 50명의 임상샘플로 PiSeq (ctDNA) 데이터를 분석한 결과에서 변이를 많이 보이는 상위 30개의 유전자 리스트 및 변이 종류를 나타낸 도면이다.
도 3b는 실시예 3에 따라 조직 및 혈액에서의 Tumor mutation burden (TMB) 상관관계를 나타낸 도면이다.
도 3c는 실시예 3에 따라 각 암종별 샘플에 대해 PiSeq 장치 또는 알고리즘을 이용하여 데이터 분석 후 보이는 TMB와 AF의 분포도를 나타낸 도면이다.
도 3d는 실시예 3에 따라 ctDNA 및 tissue에서 검출된 변이의 분포도를 나타낸 도면이다.
도 4는 실시예 4에 따라 표준물질, 암환자 샘플, 정상인 샘플에 대해 PiSeq 알고리즘을 통하여 분석된 시퀀싱 결과의 통계값을 보여주는 도면이다.
도 5a는 본원의 실시예 5에 따라 세포주 샘플을 TMB500 패널을 통하여 시퀀싱한 후 PiSeq 알고리즘을 통해 분석한 유전자 복제수(copy number)의 검정결과(validation result을 나타낸 도면이다.
도 5b는 실시예 5에 따라 종양 세포에서 특정 유전자의 복제수 변이(copy cumber)가 높은 경우에서, PiSeq에 의하여 분석된 CNV를 나타낸 도면이다.
도 5c는 도 5b의 일부 확대도이다.
도 5d는 실시예 5에 따라 종양 세포에서 특정 유전자의 복제수 변이(copy cumber)가 낮은 경우에서, PiSeq에 의하여 분석된 CNV를 나타낸 도면이다.
도 5e는 도 5d의 일부 확대도이다.
도 5f는 실시예 5에 따라 PiSeq으로 분석한 염색체 수준 CNVs를 보여주는 예시 도면이다.
도 5g는 실시예 5에 따라 PiSeq으로 분석한 염색체 수준 CNVs를 보여주는 예시 도면이다.
도 5h는 실시예 5에 따라 TCGA(The Cancer Genome Atlas) 데이터베이스의 유방암(BRCA; breast cancer) 데이터를 이용하여 WES(Whole exome sequencing)과 본원에 따른 장치 또는 방법이 적용된 TMB 500 패널을 이용해 염색체 수준의 CNVs을 분석한 결과를 나타낸 도면이다.
도 5i는 실시예 5에 따라 TCGA(The Cancer Genome Atlas) 데이터베이스의 장암(COAD; colorectal cancer) 데이터를 이용하여 WES(Whole exome sequencing)과 본원에 따른 장치 또는 방법이 적용된 TMB 500 패널을 이용해 염색체 수준의 CNVs을 분석한 결과를 나타낸 도면이다.
도 5j는 실시예 5에 따라 TCGA(The Cancer Genome Atlas) 데이터베이스의 간암과 간내담관암(LIHC; liver cnacer and intrahepatic bile duct cancer) 데이터를 이용하여 WES(Whole exome sequencing)과 본원에 따른 장치 또는 방법이 적용된 TMB 500 패널을 이용해 염색체 수준의 CNVs을 분석한 결과를 나타낸 도면이다.
도 5k는 실시예 5에 따라 TCGA(The Cancer Genome Atlas) 데이터베이스의 폐암(LUSC; lung cancer) 데이터를 이용하여 WES(Whole exome sequencing)과 본원에 따른 장치 또는 방법이 적용된 TMB 500 패널을 이용해 염색체 수준의 CNVs을 분석한 결과를 나타낸 도면이다.
도 5l은 실시예 5에 따라 TCGA(The Cancer Genome Atlas) 데이터베이스의 위암(STAD; stomach cancer) 데이터를 이용하여 WES(Whole exome sequencing)과 본원에 따른 장치 또는 방법이 적용된 TMB 500 패널을 이용해 염색체 수준의 CNVs을 분석한 결과를 나타낸 도면이다.
도 5m은 실시예 5에 따라 TCGA(The Cancer Genome Atlas) 데이터베이스의 난소암(OV; ovarian cancer) 데이터를 이용하여 WES(Whole exome sequencing)과 본원에 따른 장치 또는 방법이 적용된 TMB 500 패널을 이용해 염색체 수준의 CNVs을 분석한 결과를 나타낸 도면이다.
아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
본원 명세서 전체에서 사용하는 정도의 용어 "약", "실질적으로" 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본원의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본원 명세서 전체에서 사용하는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.
본원 명세서 전체에서, 마쿠시 형식의 표현에 포함된 "이들의 조합(들)"의 용어는 마쿠시 형식의 표현에 기재된 구성 요소들로 이루어진 군에서 선택되는 하나 이상의 혼합 또는 조합을 의미하는 것으로서, 상기 구성 요소들로 이루어진 군에서 선택되는 하나 이상을 포함하는 것을 의미한다.
본원 명세서 전체에서, "A 및/또는 B"의 기재는 "A 또는 B, 또는 A 및 B"를 의미한다.
본원 명세서 전체에서, 어떤 물질 등의 예시는 예시에 불과하며, 해당 물질이 특정 예시에 한정된다는 것을 의미하지 않는다.
본원 명세서 전체에서, '파이섹' 또는 'PiSeq'이란 본원이 청구하는 진양성 및 위양성 변이를 구별하는 장치나 알고리즘의 통칭이다.
본원 명세서 전체에서, '진양성(true-positive) 변이'란 실제 유전체에 존재하는 돌연변이로, 특정 서열위치에 진양성 변이가 존재하는 리드와 존재하지 않는 리드가 공존한다.'위양성(false-positive) 변이'란 실제로는 돌연변이가 아니며 복제 오류에 해당한다. 위양성 변이는 주로 PCR 등 유전자의 복제 과정에서 발생한다. 첫 복제 시 발생하는 경우, 복제 된 모든 리드에 위양성 변이가 존재할 수 있으나, 높은 확률로 첫 복제 이후의 복제 과정에서 발생하게 되며 이 경우 복제 된 여러 리드 중 위양성변이를 지닌 리드와 지니지 않은 리드가 두 공존하게 된다. 이러한 특징 때문에 진양성 변이와 위양성 변이는 서로 구분되어야 하지만 실제로는 그 구분이 쉽지 않은 실정이다.
본원 명세서 전체에서, 'TMB 500 패널'이란 암 관련 유전자 변이 정보들과 tumor mutation burden (TMB)을 확인할 수 있도록 제작된 패널을 의미한다. 암과 관련된 약 540개의 유전자로 구성되어 있으며, target enrichment panel로 target region의 크기는 약 1.6 Mega basepair (Mbp)이다.
본원 명세서 전체에서, '공통배열 추출'이란, 각 포지션 그룹별로 유전자 서열을 비교했을 때, 각 서열에 존재하는 변이를 위양성 또는 진양성 변이로 판별한 뒤 위양성 변이가 제외된 대표 서열을 추출하는 것을 의미한다.
본 발명의 제 1 측면은 유전체의 위양성(False-positive) 변이를 판별하는 장치에 있어서, 유전체 리드(read)를 포지션 그룹(position group) 별로 분류하는 변이 위치 기반 군집부, 상기 포지션 그룹 간 발견되는 변이를 진양성(true-positive) 또는 위양성(false-positive) 변이로 판별하는 판별부를 포함하는 장치를 제공한다.(도 1a 참조)
여기서 본원 발명을 적용할 수 있는 유전체는 gDNA, cfDNA를 포함한다.
상기 변이 위치 기반 군집부는 시퀀싱 과정에서 분절된 유전체를 레퍼런스 서열(reference sequence)에 매핑(mapping)한 후, 리드(read) 중 동일한 시작점 및 끝점을 갖는 리드들을 하나의 포지션 그룹으로 분류할 수 있다. 여기서 '동일한 시작점 및 끝점'이란, 리드의 양 끝단의 한 개 이상의 염기를 포함하는 서열이 리드 간에 동일한 것을 의미한다. 다만, 유전자 서열 상 100% 동일한 서열만을 의미하는 것은 아니며 통상의 기술자가 동일한 수준이라고 간주할 수 있는 서열도 포함하는 것으로 해석되어야 한다. 따라서 같은 포지션 그룹 내 리드들은, 동일한 리드에 대한 PCR 증폭 산물(duplicate)에 해당한다.
도 1b를 참조하여 상기 판별부에 대해 설명한다. 본원의 일 실시예에 따르면, 먼저 같은 포지션 그룹 내 리드들의 변이 위치를 비교한다. 이론적으로 한 포지션 그룹 내 리드들은 동일한 리드의 PCR 증폭 산물이므로 모두 동일한 서열을 가지고 있어야 한다. 여기서 (1) 동일한 포지션 그룹 내에서 특정 서열에 변이(변이 X)가 존재하는 리드와 존재하지 않는 리드가 모두 존재하는 경우, 해당 변이 X는 PCR 증폭 과정에서 발생한 위양성 변이로 간주할 수 있다.
반대로 (2) 동일한 포지션 그룹 내 모든 리드의 특정 서열에 변이가 존재하는 경우(변이 Y), 이는 진양성 또는 위양성 변이 모두에 해당할 수 있다. 이 경우 변이 Y가 속하는 서열을 포함하는 다른 포지션 그룹에서 같은 서열에 대해 비교를 진행한다.
다른 포지션 그룹의 모든 리드의 같은 서열에 변이 Y가 존재하는 경우, 변이 Y는 진양성 변이일 수 있다. 판별부는 적어도 2개의 포지션 그룹의 모든 리드에 변이 Y가 존재할 때 이를 진양성 변이로 판단할 수 있다.
정리하자면,
1) 동일한 포지션 그룹 내에 변이가 존재하는 리드와 존재하지 않는 리드가 모두 있는 경우, 해당 변이는 위양성 변이로 판단할 수 있다.
2) 최소 2개의 포지션 그룹 내 모든 리드의 동일서열에 변이가 존재하는 경우, 해당 변이는 진양성 변이로 판단할 수 있다.
3) 최대 1개의 포지션 그룹 내 모든 리드에 변이가 존재하는 경우, 해당 변이는 위양성 변이로 판단할 수 있다.
이에 따라 일반적인 분자 바코드 방법과 달리 인위적인 바코드 시퀀스가 필요로하지 않으므로, 특수 제작된 어댑터(adapter)를 사용할 필요가 없고 바코드를 추가로 시퀀싱할 필요도 없으므로 시간과 비용을 줄일 수 있다. 또한 바코드 교환의 영향으로부터 자유로울 수 있다.
또 본원에 따른 판별부는 시퀀싱 혹은 PCR 중에 발생한 에러(random error)를 효율적으로 구분하여 제거하고 진양성 변이(true-positive mutation)만을 선별할 수 있으므로, 변이 검출 민감도를 높일 수 있다.
본원의 제1측면은 상기 판별부의 결과를 기반으로 공통배열을 추출하는 추출부를 추가로 포함할 수 있다.
본원의 제1측면은 상기 유전체의 정보를 분석하고 데이터베이스와 연동하는 분석부를 더 포함할 수 있다. 여기서 유전체 정보는 시퀀싱 결과의 QC(Quality Control), Gene & chromosome CNV(Copy Number Variation), SNP(Single Nucleotide polymorphisms), Indel 또는 Hotspot Mutation의 결과를 포함할 수 있다. 상기 분석부는 상기 군집부 및 판별부를 통해 판별된 변이에 대해 데이터베이스를 활용해 임상적 의의(주석, annotation)을 부여하는 단계를 포함할 수 있다. 상기 데이터베이스는 OncoKB, Mycancer genome 또는 OMIM database을 포함할 수 있다.
본원의 제2측면은 유전체의 위양성(false-positive) 변이를 판별하는 방법에 있어서, 유전체 리드(read)를 포지션 그룹(position group) 별로 분류하는 단계 및 상기 포지션 그룹 간 공통배열을 추출하고 각 공통배열마다 발견되는 변이를 진양성(true-positive) 또는 위양성(false-positive) 변이로 판별하는 단계를 포함하는 방법을 제공한다.
제 2측면은 제1측면의 장치에 적용되는 방법에 관한 것으로, 제1측면에서 제2측면에 중복되는 기재는 생략하였으며, 각 측면에 공통되는 내용은 모두 공히 적용된다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수도 있다. 본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위, 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.
이하, 첨부된 도면을 참조하여 본원의 구현예 및 실시예를 상세히 설명한다. 그러나, 본원이 이러한 구현예 및 실시예와 도면에 제한되지 않을 수 있다.
실시예 1. 돌연변이 유전형 예측 방법
일 실시예로서 본원에 따른 장치 또는 방법을 활용하여 돌연변이 유전형을 예측하는 방법을 설명한다.(도 1c 참조)
(1) FASTQ 파일 생성, 표준서열 매핑, BAM 파일 생성(PiSeq 전처리)
Paired-end sequence raw read는 정리하고 필터링 하여 양질(Phred Q score>30)의 선명한 리드를 도출할 수 있다. Burrows-Wheeler Alignment(BWA 0.5.9), Genome Analysis Toolkit(GATK), Samtools을 이용하여 도출된 paired-end sequencing 리드를 인간의 reference genome hg19에 정렬할 수 있다.
(2) 변이 위치 기반 군집화, 변이 검출과 필터링, 공통배열 추출
전처리를 진행한 리드에 대해 PiSeq 알고리즘을 적용하고 변이를 검출 및 진양성 변이와 위양성 변이를 필터링할 수 있다. 해당 과정은 상기 제1측면 및 제2측면에 대해 설명한 과정과 동일하다.
PiSeq을 적용하면 NGS 검사에서 발견되는 시퀀싱 에러(위양성 변이)와 진양성 변이를 효율적으로 구별할 수 있다.(도 1d 및 도 1e 참조)
(3) 결과 분석(주석 부여)
(1) 및 (2) 과정을 통해 얻은 리드에 대해 단일염기변이(single nucleotide variant, SNV)와 짧은 삽입과 결실(INDEL)을 확인할 수 있다. SNV와 INDEL의 분석은 dbSNP135, dbNSFP COSMIC, 1000 Genomes variants databases 그리고 소프트웨어 프로그램으로 SNPEff, SIFT, PolyPhen2, LRT, PhyloP, Mutation_Taster, Mutation_Assessor, FATHMM, GERP_NR을 이용할 수 있다. 이들 변이는 Interactive Genomic Viewer 프로그램과 NextGENe v2.3.1.(Soft genetics, Inc.)에서 시각화하여 확인할 수 있다.
이와 같이 본 발명은 위와 같이 위양성 변이를 판단할 수 있는 것 외에도 PiSeq 알고리즘을 통해 얻은 결과에 대해 QC, Gene & chromosome CNV, SNP, Indel, Hotspot Mutation 의 데이터를 일련의 자동화된 시스템을 통하여 한번에 분석할 수 있으며, 외부 데이터 OncoKB, Mycancer genome, OMIM database와 연동되어 변이의 정보, 관련질병, 치료제 등에 대한 자세한 결과 분석이 가능하다.
실시예 2. 기술평가 실험
본원에 따른 장치 또는 방법의 결과가 유의미한지 확인하기 위해, 돌연변이 비율(AF; Allele frequency)이 알려진 표준물질(이하, 표준물질)을 이용하여 결과를 검증하였다.
표준물질로 알려진 SeraseqTM ctDNA Mutation Mix v2 AF (Seracare 사) 샘플을 이용하여 NGS library preparation (End-repair ~ PrePCR)을 진행하였으며, 540개의 유전자 패널(ctDNA 패널인 TMB 500 패널)을 이용하여 타겟 선별과정(target enrichment)을 진행했다.
DNA 입력값(Input DNA)은 30ng/35uL이며, PrePCR 은 10 cycle을 진행했다. PrePCR이 끝난 8개 샘플을 1개의 풀(pool)로 총 1,500ng으로 맞추어 합쳐(pooling) 타겟 선별과정(target enrichment)을 진행하였으며, postPCR은 12 cycle을 진행했다.
NovaSeq에 최종농도 450pM로 시퀀싱을 진행한 후 결과 데이터(raw data)를 본원에 따른 장치 또는 방법에 적용했다.
다른 실험자(AF 당 3회, 실험자 2명)가 같은 표준물질에 대해 반복실험을 진행했다.(도 2a 참조) 반복실험 조건은 이하 실시예 3 내지 실시예 5에서 사용되는 표준물질에 동일하게 적용된다.
먼저 프로빗 회귀분석(Probit regression)을 사용하여 표준물질의 LoD (Limit of Detection; 95%의 sensitivity를 보이는 지점의 AF)를 추정했다. AF 0.25%에서 95%의 sensitivity를 보였으므로 LOD는 AF 0.25%로 추정하였다.(도 2b 참조)
AMP(Association for Molecular Pathology) 및 CAP(College of American Pathologists)에서 권장하는 NGS 기반 종양학 패널의 검증 가이드라인에 따라 총 92개의 테스트가 6개의 배치로 수행되었다. 1 - 3 배치는 각 배치당 6개의 AF (0%, 0.125%, 0.25%, 0.5%, 1%, 2%)에서 2반복 테스트를 진행하였으며, 4 - 6 배치는 4개의 AF (0%, 0.125%, 0.25%, 0.5%) 예상 검출 한계 (LoD) 주변에서 각 배치당 6회 및 2반복 테스트를 진행했다.
반복 테스트 결과 AF 2%와 1%에서 99.6%로, AF 0.5%에서 96.6%, AF 0.25%에서 85.7%로, Wildtype (AF 0%)에서 100%로 변이를 검출할 수 있었다.(도 2c 참조)
정밀도와 관련하여, 각 AF(0.5%, 0.25% 및 0.125%)당 6회 반복하여 측정한 변이 대립유전자 빈도 (VAF; Variant allele frequency)의 분산 계수 (CV;coefficient of variation)를 계산하여 추정했을 때, 그 결과는 각각 20.81%, 24.87%, 29.48% 이었다.
반복실험 간 재현성의 변동계수(CV; coefficient of variation)는 각 AF 샘플에서 각각 14.17%, 14.38%, 19.83%를 보였다.(도 2d, 도 2e 및 도 2f 참조) 추정된 VAF는 Single Nucleotide Variants (SNVs), Insertions/Deletions (Indels) 및 모든 변이에 대해 각각 0.882, 0.864, 0.871의 r-square 값으로, 표준물질의 AF와 양의 상관관계를 보였다.
따라서 본원에 따른 장치 또는 방법은 위양성 돌연변이를 효과적으로 구분하므로 정확한 AF 예측이 가능함을 확인했다.
실시예 3. 실제 임상 샘플에 대한 PiSeq 알고리즘 검증 실험
본원에 따른 장치 또는 알고리즘이 실제로도 돌연변이 검출에 효과가 있는 지를 확인하기 위해 실제 임상샘플에 대한 검증 실험을 진행했다. 임상 검증을 위해 위암, 췌담도암 및 기타 진행성 암 환자 50명의 샘플을 이용했다. (Gastric cancer 34명, Pancreato-biliary cancer 12명, hepatocellular carcinoma 1명, Neuroendocrine tumor 1명, Colon Cancer 1명, Ovarian cancer 1명)
이 중 24명의 환자는 초기 진단 시 혈액 (혈장) 샘플을 수집하고 그 외 26명의 환자는 치료 중 혈액 (혈장) 샘플을 채취했다. 50명의 환자 중 33명의 환자에서는 조직검체 또한 같이 수집했다.
샘플을 이용하여 NGS library preparation (End-repair ~ PrePCR)을 진행하였으며, 540개의 유전자 패널을 이용하여 타겟 선별과정(target enrichment)을 진행했다.
DNA 입력값(Input DNA)은 30ng/35uL이며, PrePCR 은 10 cycle을 진행했다. PrePCR이 끝난 8개 샘플을 1개의 풀(pool)로 총 1,500ng으로 맞추어 합쳐(pooling) 타겟 선별과정(target enrichment)을 진행하였으며, postPCR은 12 cycle을 진행했다.
NovaSeq에 최종농도 450pM로 시퀀싱을 진행한 후 결과 데이터(raw data)를 본원에 따른 장치 또는 방법에 적용했다.
그 결과 50명의 환자 중 43명 (86%)에서 발암성 또는 tier 1 및 2 돌연변이(tier 1 & 2 mutation)가 검출되었으며, TP53 유전자에서 가장 많은 돌연변이가 검출되었다.(도 3a 참조)
조직 검체가 있는 33명 환자의 분석 데이터에서, target panel에 포함된 139개의 변이 중 67개 (48.2%)의 변이가 혈액(혈장) 및 조직 모두에서 검출되었고, 72개 (51.8%) 변이는 혈액(혈장)에서만, 17개 (12.2%) 변이는 조직에서만 검출되었다.(도 3b 참조)
조직과 혈액을 동일 시점에 채취한 19명의 환자 샘플에서 39개 (60.0%)의 변이는 혈액(혈장) 및 조직 모두에서 검출되었고, 26개 (40.0%) 변이는 혈액 (혈장)에서만 검출되었다. 조직에서만 검출된 변이는 없었다.(도 3c 참조)
Tumor Mutation Burden (TMB)가 매우 높은 경우에는 VAF가 낮은 tier 3 변이와 여러가지 tier 1, 2 변이들이 포함되어 있으며, 이는 특정 돌연변이가 지배적이 아닌, 다양한 돌연변이를 갖는 클론으로 구성됨을 시사한다.
혈액 (혈장)에서만 검출된 변이는 다양하나, 높은 VAF (0.2 - 66.2%)를 갖는 유전자는 TP53, BCORL1, ATR, KRAS, CTNNB1 등이 있으며, 이는 혈액 (혈장)이 종양 이질성을 반영할 수 있음을 시사한다.(도 3d 참조)
따라서 본원에 따른 장치 또는 방법은 위양성 변이를 효과적으로 구분할 수 있으므로 실제 돌연변이에 대한 정확한 검출도 가능함을 확인했다.
실시예 4. 시퀀싱 QC(Quality control) 결과
표준물질(Technical validation), 암환자 샘플(Cancer patients), 정상인 샘플(Healthy controls)를 본원에 따른 장치 또는 방법에 적용한 후 품질관리(QC; quality control)를 진행했다.
도 4에서 'Duplicates' NGS raw data 전체 중 PCR에 의해 증폭된 산물로 추정되는 비율을, 'Average depth'는 염기품질(Base quality) 및 매핑품질(mapping quality)이 낮은 데이터는 제외하고 남은 특정 영역의 리드 수의 평균을, 'On-target'은 데이터 중 타겟 영역에 포함된 비율을, '% Covered'는 타겟 영역에 Nx(예시로, 100x는 100배를 의미함)만큼 'Average depth'가 포함된 영역의 비율을 의미한다.
표준물질 그룹은 SeraseqTM ctDNA Mutation Mix v2 AF AF (0%, 0.125%, 0.25%, 0.5%, 1%, 2%, Seracare) 샘플을 이용했다.
암환자 샘플 그룹은 위암, 췌담도암 및 기타 진행성 암 환자 50명의 샘플을 이용했다.(Gastric cancer 34명, Pancreato-biliary cancer 12명, hepatocellular carcinoma 1명, Neuroendocrine tumor 1명, Colon Cancer 1명, Ovarian cancer 1명)
정상인 샘플 그룹은 암 진단을 받지 않은 11명의 샘플을 이용했다.
DNA 입력값(Input DNA)은 30ng/35uL이며, PrePCR 은 10 cycle을 진행했다. PrePCR이 끝난 8개 샘플을 1개의 풀(pool)로 총 1,500ng으로 맞추어 합쳐(pooling) 타겟 선별과정(target enrichment)을 진행하였으며, postPCR은 12 cycle을 진행했다.
NovaSeq에 최종농도 450pM로 시퀀싱을 진행한 후 결과 데이터(raw data)를 본원에 따른 장치 또는 방법에 적용했다.
도 4를 참조하면, 표준물질 그룹과 암환자 샘플 그룹의 QC 데이터 수치는 유사하나, 정상인 샘플 그룹에서 결과값이 상이한한 것을 알 수 있다. 이는 모집단 수(N)가 낮아 편차가 크게 보이기 때문이다.
따라서 본원에 따른 장치 또는 방법은 위양성 변이를 효과적으로 구분할 수 있고, 이에 따라 정확한 NGS QC 정보를 제공할 수 있게 된다.
실시예 5. CNVs 분석
세포주 샘플(cell-line)을 TMB 500 패널을 통해 시퀀싱한 후 본원에 따른 장치 또는 방법을 통해 유전자 CNVs(copy number variants)를 분석했다.
EGFR, ERBB2, MET, FGFR2의 copy number variants (CNVs)를 갖는 표준 세포주 (Cell-line)를CNV 변이가 없는 샘플(normal sample) 에 희석하여 (100%, 25%, 10%, 5%, 2.5%, 0.5%) 사용하였다.(도 5a 참조)
테스트 진행한 유전자의 각 copy number는 31, 28, 12, 23이다.
샘플을 이용하여 NGS library preparation (End-repair ~ PrePCR)을 진행하였으며, 540개의 유전자 패널(TMB 500 패널)을 이용하여 타겟 선별과정(target enrichment)을 진행했다.
DNA 입력값(Input DNA)은 30ng/35uL이며, PrePCR 은 10 cycle을 진행했다. PrePCR이 끝난 8개 샘플을 1개의 풀(pool)로 총 1,500ng으로 맞추어 합쳐(pooling) 타겟 선별과정(target enrichment)을 진행하였으며, postPCR은 12 cycle을 진행했다.
NovaSeq에 최종농도 450pM로 시퀀싱을 진행한 후 결과 데이터(raw data)를 본원에 따른 장치 또는 방법에 적용했다.
2.5%의 종양비율(tumor cell fraction)까지 EGFR, ERBB2, FGFR2의 CNVs를 검출하였다.
종양 세포의 비율이 낮아질수록 검출률은 감소하였다. 도 5b 내지 도 5e를 참조하면, 종양 세포에서 특정 유전자의 복제수 변이(copy cumber)가 높은 경우 특정 영역의 coverage가 매우 높아지고(도 5b 및 도 5c 참조), 낮은 경우 특정 영역의 coverage가 약간 높아졌음을 확인했다.(도 5d 및 도 5e 참조)
도 5f 및 도 5g는 염색체 수준의 CNVs를 보여주는 도면으로, 도면 내 그래프는 정규화된 수치로 Log2ratio가 0에 수렴하는 경우 정상, 0이 아닌 경우 해당 영역에 CNV가 존재함을 의미한다.
위와 별도로 TCGA(The Cancer Genome Atlas) 데이터베이스의 데이터 및 Piseq을 이용하여 WES(Whole exome sequencing)와 TMB 500 패널을 통해 염색체 수준의 CNVs를 분석했다.(도 5h 내지 도 5m 참조) 사용된 데이터의 암종은 유방암(BRCA; breast cancer), 위암(STAD; stomach cancer), 폐암(LUSC; lung cancer), 장암(COAD; colorectal cancer), 간암과 간내담관암(LIHC; liver cnacer and intrahepatic bile duct cancer), 그리고 난소암(OV; ovarian cancer)이다. 분석 결과 대부분의 암 유형에서 WES가 추정한 TMB 값과, TMB 500 패널이 추정한 TMB값 사이에 우수한 양의 상관관계를 보였다.
ctDNA를 사용한 TMB 추정은 종양 이질성이 높은 예외적인 경우와 함께 쌍을 이루는 조직을 사용한 추정과 상관관계가 높으므로, TMB 500 ctDNA 패널과 본원에 따른 장치 또는 방법을 사용하면 약물성 돌연변이를 검출하고 TMB 값을 추정하기 위한 임상 샘플에서 실현 가능함을 확인하였다. 따라서 본원에 따른 장치 또는 방법은 시퀀싱에 있어 변이를 효과적으로 구분하여, 시퀀싱 이후의 정확한 결과 분석에 기여할 수 있다.

Claims (18)

  1. 유전체의 위양성(false-positive) 변이를 판별하는 장치에 있어서,
    유전체 리드(read)를 포지션 그룹(position group) 별로 분류하는 변이 위치 기반 군집부; 및
    상기 포지션 그룹마다 발견되는 변이를 진양성(true-positive) 또는 위양성(false-positive) 변이로 판별하는 판별부를 포함하는, 장치.
  2. 제1항에 있어서,
    상기 유전체는 gDNA 또는 cfDNA인 것인, 장치.
  3. 제1항에 있어서,
    상기 포지션 그룹으로 분류하는 기준은 레퍼런스 서열에 매핑된 리드 중 동일한 시작점 및 끝점을 갖는 리드인 것인, 장치.
  4. 제1항에 있어서,
    상기 진양성 변이로 판별하는 기준은 최소 2개의 상기 포지션 그룹 내 모든 리드의 동일서열에 존재하는 변이인 것인, 장치.
  5. 제1항에 있어서,
    상기 위양성 변이로 판별하는 기준은, 최소 1개의 상기 포지션 그룹 내 일부 리드에 존재하는 변이 또는 최대 1개의 상기 포지션 그룹 내 모든 리드에 존재하는 변이인 것인, 장치.
  6. 제1항에 있어서,
    상기 판별부의 결과를 기반으로 공통배열을 추출하는 추출부를 추가로 포함하는, 장치.
  7. 제1항에 있어서,
    상기 유전체의 정보를 분석하고 데이터베이스와 연동하는 분석부를 추가로 포함하는, 장치.
  8. 제7항에 있어서,
    상기 유전체의 정보는 Sequencing의 결과의 QC, Gene & chromosome CNV, SNP, Indel 또는 Hotspot Mutation의 결과를 포함하는 것인, 장치.
  9. 제7항에 있어서,
    상기 데이터베이스는 OncoKB, Mycancer genome 또는 OMIM database을 포함하는 것인, 장치.
  10. 유전체의 위양성(false-positive) 변이를 판별하는 방법에 있어서,
    유전체 리드(read)를 포지션 그룹(position group) 별로 분류하는 단계; 및
    상기 포지션 그룹 간 발견되는 변이를 진양성(true-positive) 또는 위양성(false-positive) 변이로 판별하는 단계를 포함하는, 방법.
  11. 제10항에 있어서,
    상기 유전체는 gDNA 또는 cfDNA인 것인, 방법.
  12. 제10항에 있어서,
    상기 포지션 그룹으로 분류하는 기준은 레퍼런스 서열에 매핑된 리드 중 동일한 시작점 및 끝점을 갖는 리드인 것인, 방법.
  13. 제10항에 있어서,
    상기 진양성 변이로 판별하는 기준은 최소 2개의 상기 포지션 그룹 내 모든 리드의 동일서열에 존재하는 변이인 것인, 방법.
  14. 제10항에 있어서,
    상기 위양성 변이로 판별하는 기준은, 최소 1개의 상기 포지션 그룹 내 일부 리드에 존재하는 변이 또는 최대 1개의 상기 포지션 그룹 내 모든 리드에 존재하는 변이인 것인, 방법.
  15. 제10항에 있어서,
    상기 판별하는 단계의 결과를 기반으로 공통배열을 추출하는 단계를 추가로 포함하는, 방법.
  16. 제10항에 있어서,
    상기 유전체의 정보를 분석하고 데이터베이스와 연동하는 단계를 추가로 포함하는, 방법.
  17. 제16항에 있어서,
    상기 유전체 정보는 Sequencing의 결과의 QC, Gene & chromosome CNV, SNP, Indel 또는 Hotspot Mutation의 결과를 포함하는 것인, 방법.
  18. 제16항에 있어서,
    상기 데이터베이스는 OncoKB, Mycancer genome 또는 OMIM database을 포함하는 것인, 방법.
PCT/KR2022/012154 2022-05-03 2022-08-16 진양성 변이 및 위양성 변이를 구별하는 piseq 장치 및 알고리즘 WO2023214620A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2022-0054570 2022-05-03
KR1020220054570A KR20230155107A (ko) 2022-05-03 2022-05-03 진양성 변이 및 위양성 변이를 구별하는 PiSeq 장치 및 알고리즘

Publications (1)

Publication Number Publication Date
WO2023214620A1 true WO2023214620A1 (ko) 2023-11-09

Family

ID=88646552

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/012154 WO2023214620A1 (ko) 2022-05-03 2022-08-16 진양성 변이 및 위양성 변이를 구별하는 piseq 장치 및 알고리즘

Country Status (2)

Country Link
KR (1) KR20230155107A (ko)
WO (1) WO2023214620A1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658983A (zh) * 2018-12-20 2019-04-19 深圳市海普洛斯生物科技有限公司 一种识别和消除核酸变异检测中假阳性的方法和装置
KR20210040714A (ko) * 2019-10-04 2021-04-14 지니너스 주식회사 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치
KR20220052298A (ko) * 2020-10-20 2022-04-27 연세대학교 산학협력단 차세대 염기 서열 분석(ngs)에서 크리스퍼/카스9 시스템을 이용하여 저빈도 단일 염기 변이(snv) 검출 정확도를 향상시키는 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658983A (zh) * 2018-12-20 2019-04-19 深圳市海普洛斯生物科技有限公司 一种识别和消除核酸变异检测中假阳性的方法和装置
KR20210040714A (ko) * 2019-10-04 2021-04-14 지니너스 주식회사 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치
KR20220052298A (ko) * 2020-10-20 2022-04-27 연세대학교 산학협력단 차세대 염기 서열 분석(ngs)에서 크리스퍼/카스9 시스템을 이용하여 저빈도 단일 염기 변이(snv) 검출 정확도를 향상시키는 방법

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HOLT JAMES M.; KELLY MELISSA; SUNDLOF BRETT; NAKOUZI GHUNWA; BICK DAVID; LYON ELAINE: "Reducing Sanger confirmation testing through false positive prediction algorithms", GENETICS IN MEDICINE, NATURE PUBLISHING GROUP US, NEW YORK, vol. 23, no. 7, 25 March 2021 (2021-03-25), New York, pages 1255 - 1262, XP037500613, ISSN: 1098-3600, DOI: 10.1038/s41436-021-01148-3 *
JEROEN VAN DEN AKKER;GILAD MISHNE;ANJALID. ZIMMER;ALICIAY. ZHOU: "A machine learning model to determine the accuracy of variant calls in capture-based next generation sequencing", BMC GENOMICS, BIOMED CENTRAL LTD, LONDON, UK, vol. 19, no. 1, 17 April 2018 (2018-04-17), London, UK , pages 1 - 9, XP021255485, DOI: 10.1186/s12864-018-4659-0 *
이승태. ctDNA검사의 임상적용. 2021년 대한진단유전학회 제16차 학술대회. 03 September 2021, pp. 475-500, non-official translation (LEE, Seung-Tae. Clinical Application of ctDNA Test. 2021 Korean Society for Genetic Diagnostics 16th Conference.) *

Also Published As

Publication number Publication date
KR20230155107A (ko) 2023-11-10

Similar Documents

Publication Publication Date Title
Fang et al. Indel variant analysis of short-read sequencing data with Scalpel
Zook et al. A robust benchmark for germline structural variant detection
Ulahannan et al. Technical and implementation issues in using next-generation sequencing of cancers in clinical practice
Philippe et al. CRAC: an integrated approach to the analysis of RNA-seq reads
WO2019139363A1 (ko) 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도
WO2019031785A9 (ko) 유전자 패널에 기초한 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
WO2017023148A1 (ko) 다양한 플랫폼에서 태아의 성별과 성염색체 이상을 구분할 수 있는 새로운 방법
CN108319813A (zh) 循环肿瘤dna拷贝数变异的检测方法和装置
WO2017135768A1 (ko) 추정 자손의 유전질환 발병 위험성을 예측하는 방법 및 시스템
CN108920899A (zh) 一种基于目标区域测序的单个外显子拷贝数变异预测方法
Zhang et al. Application of next-generation sequencing technology to precision medicine in cancer: joint consensus of the Tumor Biomarker Committee of the Chinese Society of Clinical Oncology
CN113450871A (zh) 基于低深度测序的鉴定样本同一性的方法
CN105986011B (zh) 一种杂合性缺失的检测方法
Fu et al. Improving the performance of somatic mutation identification by recovering circulating tumor DNA mutations
CN112201306A (zh) 基于高通量测序的真假基因突变分析方法及应用
Panoutsopoulou et al. Quality control of common and rare variants
WO2018147608A2 (ko) 종양 치료를 위한 표적 유전자 판별 방법
WO2023214620A1 (ko) 진양성 변이 및 위양성 변이를 구별하는 piseq 장치 및 알고리즘
Kubiritova et al. On the critical evaluation and confirmation of germline sequence variants identified using massively parallel sequencing
WO2015126058A1 (ko) 암 예후 예측 방법
WO2023090709A1 (ko) 염색체 구조의 상태 정보를 이용한 세포 분석 장치 및 방법
WO2023191262A1 (ko) 환자 맞춤형 패널을 이용한 암의 재발을 예측하는 방법
CN109712671B (zh) 基于ctDNA的基因检测装置、存储介质及计算机系统
CN113793638B (zh) 一种同源重组修复基因变异的解读方法
WO2016208827A1 (ko) 유전자를 분석하는 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22940861

Country of ref document: EP

Kind code of ref document: A1

WA Withdrawal of international application