WO2021086107A1 - Parp 저해제에 대한 반응성 결정방법 - Google Patents
Parp 저해제에 대한 반응성 결정방법 Download PDFInfo
- Publication number
- WO2021086107A1 WO2021086107A1 PCT/KR2020/015027 KR2020015027W WO2021086107A1 WO 2021086107 A1 WO2021086107 A1 WO 2021086107A1 KR 2020015027 W KR2020015027 W KR 2020015027W WO 2021086107 A1 WO2021086107 A1 WO 2021086107A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- mutation
- sequence
- parp inhibitor
- dna
- nucleic acid
- Prior art date
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/10—Design of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2537/00—Reactions characterised by the reaction format or use of a specific feature
- C12Q2537/10—Reactions characterised by the reaction format or use of a specific feature the purpose or use of
- C12Q2537/16—Assays for determining copy number or wherein the copy number is of special importance
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/106—Pharmacogenomics, i.e. genetic variability in individual responses to drugs and drug metabolism
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/158—Expression markers
Definitions
- the present invention relates to a method for determining the reactivity to a PARP (Poly ADP Ribose Polymerase) inhibitor, and in more detail, by analyzing the genotype of the PAPR inhibitor resistance gene group and the PARP inhibitor sensitive gene group, it is rapid and sensitive, with high accuracy. It relates to a method for determining the reactivity to and a kit using the same.
- PARP Poly ADP Ribose Polymerase
- Biomarkers are defined as'an indicator that can objectively measure and evaluate a drug's responsiveness to normal biological processes, disease progression, and treatment methods'. With the recent development of gene analysis technology, research on the relationship between specific gene mutations and specific diseases is increasing, and biomarkers are molecular and biological that encompasses all differences in expression of genes and genetic mutations, resulting in RNA, protein, and metabolites. It is being redefined as an indicator.
- a companion diagnostics device that can determine the sensitivity of biomarkers has been developed to classify patient groups that can maximize the therapeutic effect of drugs or minimize side effects. Is losing.
- Companion Diagnosis is a diagnostic technique for predicting a patient's responsiveness to specific drug treatments in advance.
- Targeted anticancer drugs have been developed to selectively attack specific target proteins in order to overcome the shortcomings of most existing anticancer drugs with large side effects by acting on both cancer cells and normal cells.
- target anticancer drugs are only effective for cancer patients with a specific target protein, even with the same type of cancer, treatment efficiency is very low unless patients with target molecules are selected.
- target anticancer drugs rely on cell growth and proliferation inhibition rather than cell death, resistance is likely to occur due to continuous drug administration over a long period. Therefore, before administration of the drug, it is necessary to analyze the target of the anticancer agent and select a group of patients showing an effect on the drug.
- Companion diagnostic kit is a method to check the overexpression of a specific protein through immunohistochemistry such as DAKO and HercepTest, and a FISH or CISH test using a DNA probe to amplify the gene of a specific gene such as Ventana Medical Systems, INFORM HER-2/NEU. And a method of testing for mutations in biomarker genes using genomic techniques such as Roche Diagnostics and q-PCR such as the cobas EGFR mutation test.
- the reactivity of a living body when an anticancer agent is administered is highly dependent on the susceptibility of the target cancer cells of the drug to the drug.
- the susceptibility of such cancer cells to drugs varies greatly for each cancer cell. This difference in sensitivity is due to the quantitative or qualitative difference of the target molecule of the drug or a factor related thereto, or the acquisition of drug resistance. Based on this background, if the genetic changes of cancer cells that are specific can be confirmed when the target cancer cells are sensitive to drugs, early determination of the effects of drugs, establishment of treatments, selection of new treatments, etc. It is possible and very beneficial.
- cancer cells are separated according to a conventional method, and then drug treatment is performed, and whether or not these cancer cells are drug sensitive is measured by the above change. It is very useful clinically because it is possible to predict in advance whether or not the treatment will be effective.
- Synthetic lethality is a cell that can survive if only one of the two genes (or two gene products) has a mutation. A mutation in all of the dog's genes means that the cell will die. BRCA1/2 and olaparib are examples of inducing death through the genetic interaction of two or more mutations.
- synthetic lethality is the killing of cancer cells by a combination of mutations and drugs.
- synthetic lethality provides a framework for the development of anticancer agents.
- due to the absence of identification of synthetic lethal genes (and gene products) there are few studies on this.
- Two hit theory is a theory that mutations must occur in each double strand within the same gene for tumor formation.When one of the two strands of DNA has a germline mutation, the other strand must have a somatic mutation to induce a tumor. In the absence of germline mutations, it is hypothesized that tumors are induced only when both strands have somatic mutations.
- Olaparib is an anticancer agent having a function of inhibiting abnormal proliferation of cancer cells, and is an inhibitor of "PARP protein".
- PARP is a protein that repairs DNA in a cell when it is damaged, and plays a large role in contributing to the cell's ability to repair DNA and continue to proliferate.
- Olafarib inhibits the proliferation of cancer cells by inhibiting the function of this PARP.
- Olaparip is well known as a target treatment for ovarian cancer and breast cancer, and is particularly known as an effective anticancer agent for cancer patients who have genetic mutations in BRCA1 and BRCA2.
- Foundation Medicine's FoundationFocusCDxBRCA product is also a companion diagnostic product that diagnoses the association between mutations in BRCA1 and BRCA2 and rucaparib, a PARP inhibitor, but the overall response rate (ORR) is only 53.8%.
- the present inventors made diligent efforts to develop a method for determining the reactivity to PARP inhibitors with high sensitivity and accuracy, and as a result of confirming the genotypes of the PARP inhibitor resistance gene group and the PARP inhibitor sensitive gene group, mutations in both alleles When checking the presence or absence, it was confirmed that the reactivity to the PARP inhibitor can be determined with high sensitivity and accuracy, and the present invention was completed.
- Another object of the present invention is to provide a composition for predicting reactivity to a PARP inhibitor.
- Another object of the present invention is to provide a kit for predicting reactivity to a PARP inhibitor comprising the composition.
- the present invention comprises the steps of: (a) analyzing a patient-derived nucleic acid molecule to determine the genotype of the PARP inhibitor resistance gene group and the PARP inhibitor sensitive gene group; And (b) if there is no mutation in all genes of the PARP inhibitor resistance gene group and both alleles of one or more genes of the PARP inhibitor sensitive gene group show mutations, it is determined that there is a susceptibility to the PARP inhibitor. It provides a method for determining the susceptibility (susceptibility) to a PARP (Poly ADP Ribose Polymerase) inhibitor comprising the step of.
- PARP Poly ADP Ribose Polymerase
- the present invention also includes (a) a polynucleotide containing a sequence complementary to one or more genes selected from the group consisting of MAD2L2, TP53BP1, XRCC5, XRCC6 and SFLN11; And (b) BRCA1, BRCA2, BARD1, PALB2, RAD51, ATM, ATR, RAD51C, RAD51B, NBN, FANCA, FANCD2, FANCM, FANCI, STK11, MRE11A, RAD50, RAD51D, CHEK2, CDH1, RBBP8, BRIP1, PTEN
- the present invention also provides a kit for predicting sensitivity to a PARP inhibitor comprising the composition.
- 1 is a graph showing a result of classifying a GA value calculated according to an embodiment of the present invention for each gene.
- 3 is a result of confirming the distribution of GA before and after the age of 40 according to an embodiment of the present invention.
- nucleoside refers to a glycosylamine compound in which a nucleic acid base (nucleobase) is linked to a sugar moiety.
- Nucleotide means nucleoside phosphate. Nucleotides can be represented using the alphabetic letters (letter designations) corresponding to their nucleosides, as described in Table 1. For example, A refers to adenosine (nucleoside containing an adenine nucleobase), C refers to cytidine, G refers to guanosine, U refers to uridine, T is thymidine (5- Methyl uridine).
- W refers to A or T/U
- S refers to G or C
- N denotes a random nucleoside
- dNTP denotes a deoxyribonucleoside triphosphate.
- N can be any of A, C, G, or T/U.
- oligonucleotide or "oligonucleotide” means an oligomer of nucleotides.
- nucleic acid refers to a polymer of nucleotides.
- sequence refers to the nucleotide sequence of an oligonucleotide or nucleic acid. Throughout the specification, whenever an oligonucleotide or nucleic acid is represented by a sequence of letters, the nucleotides are in the order of 5' ⁇ 3' from left to right.
- Oligonucleotides or nucleic acids can be DNA, RNA, or analogs thereof (eg, phosphorothioate analogs). Oligonucleotides or nucleic acids may also contain modified bases and/or backbones (eg, modified phosphate linkages or modified sugar moieties). Non-limiting examples of synthetic backbones that confer stability and/or other benefits to nucleic acids may include phosphorothioate linkages, peptide nucleic acids, locked nucleic acids, xylose nucleic acids, or analogs thereof.
- nucleic acid refers to a nucleotide polymer and, unless otherwise limited, includes known analogs of natural nucleotides that can act in a manner similar to (eg, hybridization) naturally occurring nucleotides.
- nucleic acid includes, for example, genomic DNA; Complementary DNA (cDNA) (which is usually the DNA representation of mRNA obtained by reverse transcription or amplification of messenger RNA (mRNA)); DNA molecules produced synthetically or amplified; And any form of DNA or RNA including mRNA.
- cDNA Complementary DNA
- mRNA messenger RNA
- nucleic acid includes single-stranded molecules as well as double or triple-stranded nucleic acids.
- the nucleic acid strand need not be coextensive (ie, the double stranded nucleic acid need not be double stranded along the entire length of both strands).
- nucleic acid also includes any chemical modification thereof, such as by methylation and/or capping.
- Nucleic acid modification may include the addition of chemical groups including additional charge, polarization, hydrogen bonding, electrostatic interactions, and functionality to individual nucleic acid bases or to the entire nucleic acid. These modifications include modifications per 2'position, 5 position pyrimidine modifications, 8 position purine modifications, modifications in cytosine exocyclic amines, substitution of 5-bromo-uracil, main chain modification, isobase isocytidine and isoguanidine. And base modification such as specific base pair combination, such as.
- the nucleic acid(s) can be from a complete chemical synthesis process such as solid phase-mediated chemical synthesis, from a biological source such as through separation from any species producing the nucleic acid, or from DNA replication, PCR amplification, reverse transcription.
- a complete chemical synthesis process such as solid phase-mediated chemical synthesis
- a biological source such as through separation from any species producing the nucleic acid, or from DNA replication, PCR amplification, reverse transcription.
- the term “complementary” refers to the ability to accurately pair between two nucleotides. That is, if a nucleotide can hydrogen bond with a nucleotide of another nucleic acid at a given position in a nucleic acid, the two nucleic acids are considered to be complementary to each other at that position.
- Complementarity between two single-stranded nucleic acid molecules may be “partial” due to the binding of only a portion of the nucleotides, or complementarity may be complete when total complementarity exists between the single-stranded molecules. The degree of complementarity between nucleic acid strands significantly affects the efficiency and strength of hybridization between nucleic acid strands.
- the term'primer' refers to a single template that can serve as an initiation point for template-directed DNA synthesis under suitable conditions (i.e., 4 different nucleoside triphosphates and polymerases) in a suitable buffer at a suitable temperature. It refers to the oligonucleotide of the strand.
- suitable length of a primer varies depending on various factors, eg temperature and application of the primer, but is typically 15 to 30 nucleotides Short primers form sufficiently stable hybridization complexes with the template. In order to do so, it may generally require lower temperatures.
- the terms "forward primer” and "reverse primer” refer to the 3'end and 5 end of a constant site of the template that is amplified by polymerase chain reaction.
- the primer set does not need to have a sequence that is completely complementary to the nucleotide sequence as a template, and it is sufficient if it has sufficient complementarity within the range capable of hybridizing to this sequence to function as a primer.
- the design of these primers can be easily performed by those skilled in the art by referring to the base sequence of the polynucleotide used as the template, for example, using a primer design program (eg, PRIMER 3, VectorNTI program). You can do it.
- the term'amplification' means a reaction to amplify a nucleic acid molecule.
- Various amplification reactions have been reported in the art, which are polymerase chain reaction (hereinafter referred to as PCR) (U.S. Patent Nos. 4,683,195, 4,683,202, and 4,800,159), reverse transcription-polymerase chain reaction (hereinafter referred to as RT-PCR).
- PCR polymerase chain reaction
- RT-PCR reverse transcription-polymerase chain reaction
- NASBA nucleic acid sequence based amplification
- LAMP strand displacement amplification
- LAMP loop-mediated thermostatic amplification isothermal amplification
- PCR is the most well-known nucleic acid amplification method, and its many modifications and applications have been developed. For example, touchdown PCR, hot start PCR, nested PCR and booster PCR have been developed by modifying traditional PCR procedures to enhance the specificity or sensitivity of PCR.
- real-time PCR differential display PCR (D-PCR), rapid amplification of cDNA ends (RACE), DL-PCR (PC), inverse polymerase chain reaction (inverse polymerase chain reaction: IPCR), vectorette PCR, and TAIL-PCR (thermal asymmetric interlaced PCR) have been developed for specific applications.
- D-PCR differential display PCR
- RACE rapid amplification of cDNA ends
- PC DL-PCR
- IPCR inverse polymerase chain reaction
- vectorette PCR vectorette PCR
- TAIL-PCR thermal asymmetric interlaced PCR
- the multiplex amplification is a multiplex PCR (Polymerase Chain Reaction) amplification.
- the multiplex PCR amplification has an annealing temperature condition of 57-61°C, and according to another embodiment of the present invention, the multiplex PCR amplification is an annealing of 58-60°C. It has a temperature condition, and according to a specific embodiment of the present invention, the multiplex PCR amplification has an annealing temperature condition of 58.5-59.5°C.
- the multiplex PCR amplification requires an appropriate number of cycles to perform PCR. According to an embodiment of the present invention, the multiplex PCR amplification is performed in 27-30 cycles. When the multiplex PCR amplification of the present invention was performed in 26 cycles or less, peaks of 500 RFU or less were formed, and peaks of 2,000 RFU or more were formed in 31 cycles, but noise increased and incomplete A insertion occurred, which is not suitable.
- the term "probe” binds to a target nucleic acid of a complementary sequence through one or more types of chemical bonds, generally through complementary base pairing, and usually through hydrogen bond formation, thus forming a duplex structure. It is a nucleic acid that can be formed.
- the probe binds or hybridizes to the “probe binding site”.
- the probe can be labeled with a detectable label to facilitate detection of the probe once the probe has hybridized to its complementary target.
- the probe may be unlabeled, but can be detected directly or indirectly by specific binding with the labeled ligand. Probes can vary considerably in size. Typically probes are at least 7 to 18 nucleotides in length.
- probes are at least 20, 30 or 40 nucleotides in length. Another probe is somewhat longer and is at least 50, 60, 70, 80, or 90 nucleotides in length. Another probe is even longer and is at least 100, 150, 200 or more nucleotides in length. The probe may also be of any length within any range defined by any of the above values (eg, 15-20 nucleotides in length).
- hybridization refers to the formation of double-stranded nucleic acids by hydrogen bonding between single-stranded nucleic acids having complementary base sequences, and is used in a similar sense to annealing. However, in a slightly broader sense, hybridization includes cases where the nucleotide sequences between two single strands are completely complementary (perfect match) and, as an exception, some nucleotide sequences are not complementary (mismatch).
- the terms "acquire” or “acquire” are used herein and “directly” or “indirectly acquire” a physical entity or value, such as a physical entity or value, for example numerical Refers to obtaining possession of value.
- “Indirectly acquiring” means performing a process to obtain a physical entity or value (eg, performing a synthetic or analytical method).
- “Acquiring indirectly” refers to accepting a physical entity or value from another party or source (eg, a physical entity or a third party laboratory that directly acquired the value).
- Acquiring a physical entity indirectly involves carrying out a treatment involving a physical change in a physical material, for example a starting material. Typical variations are the creation of physical entities from two or more starting materials, shearing or fragmenting the material, separating or purifying the material, combining two or more distinct entities into a mixture, covalent or non-covalent. It involves carrying out a chemical reaction that involves breaking or forming bonds. Acquiring a value indirectly involves performing a process involving a physical change in a sample or other material, e.g. performing an analytical process involving a physical change in a material, e.g.
- a sample, analyte or reagent ( Sometimes, referred to herein as "physical analysis"), performing an analytical method, for example a method comprising one or more of the following: a substance, for example an analyte or fragment or other derivative thereof, to another substance To separate or purify from; Combining the analyte or fragments or other derivatives thereof with other substances such as buffers, solvents or reactants; Or altering the structure of the analyte or fragments or other derivatives thereof, for example by breaking or forming covalent or non-covalent bonds between the first and second atoms of the analyte; Or altering the structure of the reagent or fragments or other derivatives thereof, for example by breaking or forming covalent or non-covalent bonds between the first and second atoms of the reagent.
- an analytical method for example a method comprising one or more of the following: a substance, for example an analyte or fragment or other derivative thereof, to another substance To separate or purify from; Combin
- the term “obtaining a sequence” or “obtaining a lead” is used herein, and possession of a nucleotide sequence or an amino acid sequence by “obtaining directly” or “indirectly” a sequence or read refers to getting.
- “Directly obtaining” a sequence or read means performing a process to obtain a sequence (e.g., a synthetic or analytical method), such as performing a sequencing method (e.g., a next generation sequencing (NGS) method). To perform).
- NGS next generation sequencing
- “Indirectly obtaining” a sequence or read refers to accepting a sequence from, or receiving information or knowledge of, a sequence from another party or source (eg, a third-party laboratory from which the sequence was directly obtained).
- the obtained sequence or read need not be a complete sequence, for example sequencing of at least one nucleotide or obtaining information or knowledge identifying one or more of the alterations disclosed herein, such as those present in a subject, obtains the sequence. It constitutes what to do.
- Directly obtaining a sequence or read is a process involving physical changes in a physical material, e.g. a starting material, e.g. a tissue or cell sample, e.g. a biopsy or an isolated nucleic acid (e.g. DNA or RNA) sample
- a starting material e.g. a tissue or cell sample, e.g. a biopsy or an isolated nucleic acid (e.g. DNA or RNA) sample
- Representative changes include shearing or fragmenting two or more starting materials, materials, such as preparing a physical entity from a genomic DNA fragment (eg, separating a nucleic acid sample from a tissue); It involves combining two or more distinct entities into a mixture, and carrying out a chemical reaction comprising breaking or forming covalent or non-covalent bonds.
- Obtaining the value directly involves performing a process involving physical changes in a sample or other material as described above.
- the term “obtaining a sample” is used herein and refers to obtaining possession of a sample, eg, a tissue sample or a nucleic acid sample, by “obtaining directly” or “indirectly” obtaining a sample. .
- obtaining directly means performing a process to obtain a sample (eg, performing a physical method such as surgery or extraction).
- Acquiring a sample indirectly refers to receiving a sample from another party or source (eg, a third party laboratory from which the sample was directly obtained).
- Obtaining a sample directly involves carrying out a process involving physical changes in a physical material, for example a starting material, such as a tissue, for example a tissue of a human patient or tissue previously separated from the patient.
- a starting material such as a tissue
- tissue for example a tissue of a human patient or tissue previously separated from the patient.
- Typical variations include making physical entities from starting materials, dissecting or scraping tissue; Isolating or purifying a substance (eg, sample tissue or nucleic acid sample); Combining two or more distinct entities into a mixture; It involves carrying out a chemical reaction involving breaking or forming covalent or non-covalent bonds.
- Acquiring a sample directly involves carrying out a process involving a physical change in the sample or other material, for example as described above.
- “Alteration” or “altered structure” as used herein of a gene or gene product refers to a mutation or mutations in the gene or gene product, eg, a normal or wild-type gene and In comparison, it refers to the presence of a mutation that affects the amount or activity of a gene or gene product.
- the alteration can be positive, structure and/or active in cancer tissues or cancer cells compared to the amount, structure and/or activity of cells in normal or healthy tissues or cells (e.g., controls), and diseases such as cancer It is related to the state.
- the prediction of a response to cancer-related alterations or anticancer treatments may include altered nucleotide sequences (e.g., mutations), amino acid sequences, chromosomal translocations, in cancer tissues or cells compared to normal, healthy tissues or cells. It can have inversion in chromosome, number of copies, expression level, protein level, protein activity, and methylation status.
- Representative mutations include, but are not limited to, point mutations (e.g., silent, missense or nonsense), deletions, insertions, inversions, linkage mutations, duplicates, bottoms, interchromosomal and intrachromosomal rearrangements. Mutations can exist in the coding or non-coding regions of the gene.
- the alteration(s) is detected as a rearrangement, e.g., a genomic rearrangement comprising one or more introns or fragments thereof (e.g., one or more Rearrangement).
- the alteration is associated with a phenotype, eg, a cancer phenotype (eg, a cancer phenotype (eg, one or more of cancer risk, cancer progression, cancer treatment, or resistance to cancer treatment).
- the change is related to one or more of the following:
- the term "bait" is a type of hybrid capture reagent.
- the bait may be a nucleic acid molecule capable of hybridizing (eg, being complementary), such as a DNA or RNA molecule, thereby allowing the capture of a target nucleic acid.
- the bait comprises an RNA molecule (eg, a naturally occurring or modified RNA molecule); DNA molecules (eg, naturally occurring or modified DNA molecules) or combinations thereof.
- the bait comprises a binding entity, e.g., an affinity tag, which captures and separates the hybrid formed by the bait and the nucleic acid hybridized to the bait, e.g., by binding to a binding entity.
- the bait is suitable for solution phase hybridization.
- bait set refers to one or more bait molecules.
- cancer or “tumor” are used interchangeably in the present invention. These terms refer to the presence of cells that possess typical characteristics of cancer-causing cells, such as uncontrolled proliferation, immortality, metastasis, rapid growth and proliferation rates, and certain characteristic morphological characteristics. Cancer cells are often in the form of tumors, but these cells may exist alone in an animal or may be non-tumor cancer cells, such as leukemia cells. These terms include solid tumors, soft tissue tumors or metastatic lesions.
- cancer as used herein includes precancerous as well as malignant cancer.
- the term "library” refers to a collection of members.
- the library comprises a collection of nucleic acid members, such as a collection of whole genomes, subgenomic fragments, cDNA, cDNA fragments, RNA, RNA fragments, or combinations thereof.
- some or all of the library members comprise adapter sequences.
- Adapter sequences can be located at one or both ends. Adapter sequences may be useful, for example, for sequencing methods (eg NGS methods), for amplification, for reverse transcription, or for cloning into vectors.
- Libraries may include collections of members, such as target members (eg, tumor members, reference members, PGx members, or combinations thereof). Members of the library can be derived from a single individual. In embodiments, the library may comprise members derived from one or more subjects (e.g., 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30 or more subjects), and For example, two or more libraries from different subjects can be combined to form a library having members derived from one or more subjects. In one embodiment, the subject has cancer or a tumor or is a human at risk of having a cancer or tumor.
- the term "next-generation sequencing or NGS or NG sequencing” refers to individual nucleic acid molecules (eg, in single molecule sequencing) or in a high-speed mass manner (eg, 10 ⁇ 3, 10 ⁇ 4, 10 ⁇ 5 or more molecules Is sequenced simultaneously) refers to any sequencing method for determining the nucleotide sequence of one of the cloned proxies for individual nucleic acid molecules.
- the relative abundance of a nucleic acid species in a library can be estimated by measuring the relative number of occurrences of its cognate sequence in data produced by sequencing experiments.
- Next-generation sequencing methods are known in the art and are described, for example, in Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46, incorporated herein by reference. Next-generation sequencing can detect variants present in less than 5% of the nucleic acids in the sample.
- tissue sample refers to collection of similar cells obtained from tissue or circulating cells of a subject or patient, respectively.
- the source of the tissue sample may be a fresh, frozen and/or preserved organ, tissue sample, solid tissue from a biopsy or inhalation; Blood or any blood component; Bodily fluids such as cerebrospinal fluid, amniotic fluid, peritoneal fluid or interstitial fluid; Or cells from any time in pregnancy or development of the subject.
- the tissue sample may contain compounds that are not naturally intermixed with the tissue in nature, such as preservatives, anticoagulants, buffers, fixatives, nutrients, antibiotics, and the like.
- the sample is prepared as a frozen sample or as a formaldehyde- or paraformaldehyde-fixed paraffin-embedded (FFPE) tissue preparation.
- FFPE paraffin-embedded
- the sample can be embedded in a matrix, such as a FFPE block or a frozen sample.
- the sample is a tumor sample and includes, for example, one or more precancerous or malignant cells.
- the sample eg., a tumor sample
- the sample is obtained from a solid tumor, a soft tissue tumor, or a metastatic lesion.
- the sample e.g., a tumor sample
- the sample eg, a tumor sample
- comprises one or more blood tumor cells (CTCs) eg, CTCs obtained from a blood sample).
- the term “variant” refers to a change in a sample nucleic acid sequence different from a reference sequence.
- the mutation includes a deleterious mutation and a copy number alteration
- the harmful mutation is i) a protein-cutting mutation with a stop codon at a site preceding the normal position in the coding region.
- truncating alterations ii) a junctional mutation with a non-synonymous codon (amino acid sequence altered) at the junction of introns and exons; And iii) frameshift alterations in which a codon is changed due to insertion or deletion of a part of the nucleotide sequence within the coding region, and the copy number mutation is a copy number deletion mutation in which one or more nucleic acids or codons are deleted ( copy number deletion) and copy number amplification in which one or more nucleic acids or codons are amplified.
- homologous recombination deficiency refers to a case in which an abnormality occurs in the function of homologous recombination (HR) to repair damaged DNA. Details will be described later.
- DNA is not only damaged by environmental factors such as radiation or ultraviolet rays, but also continuously damaged by internal factors such as free radicals or DNA replication failures, which are products of metabolism. Due to these environmental factors and factors caused by normal metabolic activities, human DNA inevitably generates errors during replication, and DNA breaking is reported about 1,000 to 1,000,000 times a day based on normal cells. In particular, in the case of cancer cells, such DNA breaking is tens to hundreds of times higher than that of normal cells.
- PARP protein is a protein necessary to repair errors that inevitably occur during DNA replication, and is an enzyme that recognizes and activates damaged DNA in the nucleus, and then activates DNA repair-related proteins through a post-translation process. So far, about 17 PARP families have been known, but only PARP-1 and PARP-2 proteins have been identified as DNA-repairing enzymes capable of poly(ADP-ribosyl)ation, and are known as essential proteins for cell survival.
- DDR DNA damage response
- Olaparib is a diagnostic (BRAC Analysis CDx TM) accompanied by a premarket approval (Premarket approval pathway) for the purpose of effective use of development at the time of the drug at the same time
- Rucaparib RUBRACA TM
- Rucaparib was also developed and prescribed for patients with BRCA mutations using a companion diagnostic drug (FoundationFocus CDx BRCATM).
- Niraparib (ZEJULA TM ), approved by the FDA in 2017, is a separate companion for platinum-sensitive patients in epithelial ovarian cancer, fallopian tube cancer, and primary peritoneal cancer. It was approved without a diagnosis.
- PARP Poly ADP ribose polymerase
- PARP-1/2 protein is an enzyme that recognizes and activates damaged DNA in the nucleus, and then transforms several proteins through a post-translation process called poly(ADP-ribosyl)ation.
- poly(ADPribosyl)ation substrates known so far, the most important is PARP-1 itself, and other histones, DNA topoisomerases, DNA ligases, p53 and NF- ⁇ B, etc.
- PARP-1 is known to mediate most poly(ADPribosyl)ation.
- PARP-1 is largely composed of three domains, and the DNA-binding domain on the N-terminal side has two Zn finger motifs, thereby recognizing the damage of DNA strands.
- the C-terminal side has a PARP domain that shows enzyme activity.
- the PARP signature sequence in the enzyme activity site is well preserved among all PARP family proteins.
- the automodification domain located in the middle has an amino acid sequence required for poly(ADP-ribosyl)ation.
- PARP and PARG poly ADP ribose glycohydrolase
- activated PARP-1 removes the ADP-ribose residue from NAD and attaches it to the matrix protein.
- a 1" ⁇ 2'glycosidic bond between ADP-ribose molecules is formed, and 1" for the pruning of the chain.
- ⁇ It catalyzes each 2” glycosidic bond.
- a long-chain poly(ADPribose) polymer with ADP-ribose linked up to about 200 units is made.
- PARG is the only PAR degrading enzyme known so far.
- ADP-ribosyl protein lyase hydrolyzes PAR polymers into ADP-ribose units with very high exo- and endo-glycosidase activity. Finally, the final ADP-ribose unit attached to the matrix protein is known to be cleaved by an enzyme called ADP-ribosyl protein lyase.
- DNA repair pathways There are 7 DNA repair pathways in mammals, but the main mechanisms are largely divided into single-strand break (SSB) repair and double-strand break (DSB) repair, and SSB repair is again BER (base excision repair) and MMR (mismatch). repair) and NER (Nucleotide excision repair), and DSB repair is divided into HR (homologous recombination) and NHEJ (Non-homologous end joining).
- DNA repair network including chromatin-associated DNA repair, adjusts the steps of DNA repair through TLS (Translesion DNA synthesis) that forms replication forks and post-translational modification of protein complexes to prevent collisions.
- DDRs Network of DNA damage responses
- BER which is involved in DNA single-strand break (SSB)
- SSB DNA single-strand break
- PARP-1 is known as the key protein for BER action.
- HR homologous chromosome replacement
- DSB DNA double-strand break
- MRN complex MRE11, RAD50, NBS1
- BRCA1/2 MRN complex
- NHEJ is a DNA repair process involving DNA-PKcs, Ku70/80, etc. instead of requiring a homologous template. It is characteristic that it occurs rapidly without being affected by the cell-cycle, but it is a process that is more likely to cause an error than the HR process.
- translesion synthesis is not the main process of DNA repair, but it is well known as a process that bypasses the DNA damage site and recognizes the original nucleotide code.
- Germline BRCA gene mutation is about 15% of all breast cancer patients and about 14-17% of ovarian cancer patients, but the proportion is increasing day by day due to the inheritance of offspring. Furthermore, it has been found from a number of literatures that the genetic mutation is closely related to the onset of breast cancer, ovarian cancer and prostate cancer.
- breast cancer and prostate cancer occur worldwide in more than 1.1 million people per year, with more than 300,000 deaths per year.
- the incidence rate is about 1/5 compared to breast cancer, but the mortality rate is quite high at 1/2.
- 2,413 ovarian cancer patients occurred in 2014, of which about 40% or 940 were reported to have died.
- ovarian cancer mortality is so high is that more than two-thirds of ovarian cancer patients are found in advanced stage 3 or higher.
- ovarian cancer Until the development of ovarian cancer, most of the patients have little or no symptoms, and even if there are non-specific symptoms such as indigestion and bloating, it is difficult to diagnose early, and there is still no adequate screening test for early diagnosis of ovarian cancer.
- treatment for patients with advanced ovarian cancer was difficult to properly apply due to the histological or biological diversity of the patient. In general, surgery and chemotherapy using platinum-taxane are standard treatments, but are reactive to platinum agents. About 85% of patients eventually recur within one year, and there is a limit to treatment.
- the target cancer disease of the PARP inhibitor is ACTH-producing tumor, acute lymphocytic or lymphoblastic leukemia, acute or chronic lymphocytic leukemia, acute non-lymphocytic leukemia, bladder cancer, brain tumor, breast cancer, cervical cancer, chronic myelogenous leukemia, Lymphoma, endometriosis, esophageal cancer, bladder cancer, Ewing's sarcoma, tongue cancer, Hopkins lymphoma, Capocis sarcoma, kidney cancer, liver cancer, lung cancer, mesothelioma, multiple myeloma, neuroblastoma, non-Hopekin lymphoma, osteosarcoma, ovarian cancer, Mammary cancer, prostate cancer, pancreatic cancer, colon cancer, penis cancer, retinoblastoma, skin cancer, gastric cancer, thyroid pressure, uterine cancer, testicular cancer, Wilms tumor, and trophoblastoma may be selected from the group consist
- the PARP inhibitor can be used without limitation as long as it is a substance capable of inhibiting the activity of the PARP protein, but preferably, a natural compound, a synthetic compound, DNA, RNA, peptide, enzyme, ligand, cell extract that inhibits the PARP protein activity. Or it may be characterized in that the secretion of a mammal.
- Examples of compounds that can be used according to the invention include:
- Nicotinamides such as 5-methyl nicotinamide and 0-(2-hydroxy-3-piperidino-propyl)-3-carboxylic acid amidoxime, and analogs and derivatives thereof.
- Benzamides for example 3-substituted benzamides, such as 3-aminobenzamide, 3-hydroxybenzamide, 3-nitrosobenzamide, 3-methoxybenzamide and 3-chloroprocainamide, and 4-aminobenzamide, 1,5-di[(3-carbamoylphenyl)aminocarbonyloxy]pentene, and analogs and derivatives thereof.
- Isoquinolinones and dihydroisoquinolinones for example 2H-isoquinolin-1-one, 3H-quinazolin-4-one, 5-substituted dihydroisoquinolinones such as 5-hydroxy Cydihydroisoquinolinone, 5-methyl dihydroisoquinolinone, and 5-hydroxy isoquinolinone, 5-aminoisoquinolin-1-one, 5-dihydroxyisoquinolinone, 3,4 -Dihydroisoquinolin-1(2H)-one, such as 3,4 dihydro-5-methoxy-isoquinolin-1(2H)-one and 3,4 dihydro-5-methyl-1(2H)iso Quinolinone, isoquinolin-1(2H)-one, 4,5-dihydro-imidazo[4,5,1-ij]quinolin-6-one, 1,6-naphthyridin-5(6H)- One, 1,8-naphthalimi
- Phtharazin-1(2H)-one and quinazolinones such as 4-hydroxyquinazoline, phthalazinone, 5-methoxy-4-methyl-1(2)phthalazinone, 4-substituted p Thalasinone, 4-(1-piperazinyl)-1(2H)-phthalazinone, tetracyclic benzopyrano[4,3,2-de]phthalazinone and tetracyclic indeno[1,2] ,3-de]phthalazinone and 2-substituted quinazolines, such as 8-hydroxy-2-methylquinazolin-4-(3H)one, tricyclic phthalazinone and 2-aminophthalazide, and these Analogs and derivatives of.
- Phenanthridines and phenanthridinones such as 5[H]phenanthridin-6-one, substituted 5[H]phenanthridin-6-one, especially 2-, 3-substituted 5[H]phenanthridine Sulfonamide/carbamide derivatives of -6-one and 6(5H) phenanthridinone, thieno[2,3-c]isoquinolinone, such as 9-aminothieno[2,3-c]isoqui Nolinone and 9-hydroxythieno[2,3-c]isoquinolinone, 9-methoxythieno[2,3-c]isoquinolinone, and N-(6-oxo-5, 6-dihydrophenanthridin-2-yl]-2-(N,N-dimethylamino ⁇ acetamide, substituted 4,9-dihydrocyclopenta[lmn]phenanthridin-5-one, and analogs thereof And derivatives.
- Benzopyrones such as 1,2-benzopyrone, 6-nitrosobenzopyrone, 6-nitroso-1,2-benzopyrone, and 5-iodo-6-aminobenzopyrone, and analogs and derivatives thereof .
- Unsaturated hydroxylic acid derivatives such as 0-(3-piperidino-2-hydroxy-1-propyl)nicotinic amidoxime, and analogs and derivatives thereof.
- Pyridazines eg fused pyridazines and their analogs and derivatives.
- Additional PARP inhibitors are for example [US 6,635,642, US 5,587,384, WO 2003080581, WO 2003070707, WO2003055865, WO 2003057145, WO 2003051879, US 6514983, WO 2003007959, US 6426415, WO 2003007959, WO 2002094790, WO 2002068407, US 6476048, WO 2001090077, WO 2001085687, WO 2001085686, WO 2001079184, WO 2001057038, WO 2001023390, WO 2001021615, WO 2001016136, WO 2001012199, Banasik et al., J. Biol.
- Suitable PARP inhibitors includes phthalazinones such as 1(2H)-phthalazinone and derivatives thereof as described in WO 02/36576.
- phthalazinones such as 1(2H)-phthalazinone and derivatives thereof as described in WO 02/36576.
- Rc is -LR L (wherein L is the formula
- R1 and R2 are independently selected from hydrogen, halogen or optionally substituted C1-7 alkyl, or together with the carbon atom to which they are attached
- RN is selected from hydrogen, optionally substituted C1-7 alkyl, C3-20 heterocyclyl, and C5-20 aryl, hydroxy, ether, nitro, amino, amido, thiol, thioether, sulfoxide and sulfone) ) Is indicated by]
- a and B together are an optionally substituted, fused aromatic ring
- R c is -CH2-RL
- R L is optionally substituted phenyl
- R N is hydrogen
- candidate compounds for inhibiting PARP can be based on rational drug design to model the three-dimensional structure of the component and provide the candidate compound with special molecular shape, size and charge properties.
- the candidate inhibitor may be a peptide fragment or other “functional analog” that inhibits the component.
- the functional analogue has the same functional activity as the peptide or other compound in question, ie it can interfere with the interaction or activity of the components of the DNA repair pathway. Examples of such analogs include chemical compounds modeled to resemble the three-dimensional, in particular, the arrangement of key amino acid residues as they appear of a component within a site in contact with another component.
- nucleic acids encoding part or all of the amino acid sequence of PARP (Acc No: NM001618), or a complement thereof are included.
- inhibition of PARP activity can be accomplished using conventional methods, e.g., dot blot (Affar EB et al., Anal Biochem. 1998; 259(2): 280-3), and e.g. formed by PARP activity.
- BER assay measuring the direct activity of PARP forming polyADP-ribose chains by using the triple point substrate NAD for polymer chains or radioactivity with specific antibodies (KJ Dillon et al., Journal of Biomolecular Screening, 8(3): 347 May be determined by -352 (2003).
- PARP expression can be inhibited using anti-sense or RNAi techniques.
- anti-sense or RNAi techniques The use of this approach to down-control gene expression is now well established in the art.
- Anti-sense oligonucleotides are designed to hybridize to complementary sequences of nucleic acids, pre-mRNAs or mRNAs, thereby interfering with the production of a base excision repair pathway component, thereby reducing or substantially completely preventing its expression.
- anti-sense techniques can be used to target a control sequence of a gene, such as within a 5'-neighbor sequence, so that the anti-sense oligonucleotide can interfere with the expression control sequence. Construction of anti-sense sequences and their use are described, for example, in Peyman and Ulman, Chemical Reviews, 90: 543-584 (1990) and Crooke, Ann. Rev. Pharmacol. Toxicol. 32: 329-376, (1992).
- Oligonucleotides can be generated in vivo or ex vivo for administration, or anti-sense RNA can be generated in vivo in cells where down-regulation is desired. Accordingly, the DNA of the double helix is placed under the control of a “reverse promoter, so that transcription of the anti-sense helix of the DNA produces an RNA that is complementary to the normal mRNA transcribed from the sense helix of the target gene. , It is thought that the complementary anti-sense RNA sequence binds to the mRNA, forms a doublet, and thus inhibits the translation of the endogenous mRNA from the target gene into the protein. It is still unclear whether this is a practical mode of action or not. However, it is an established fact that the technique works.
- the complete sequence corresponding to the reverse coding sequence need not be used.
- fragments of sufficient length can be used. It is common for a person skilled in the art to select fragments of various sizes from various portions of a coding or neighboring gene to optimize the level of anti-sense inhibition. It may be advantageous to include an initiation methionine ATG codon, and possibly one or more nucleotides upstream of the initiation codon.
- One suitable fragment may have about 14 to 23 nucleotides, such as about 15, 16 or 17 nucleotides.
- RNA interference RNA interference
- RNA interference is a two-step process. First, dsRNA is cleaved in the cell, resulting in short interfering RNA (siRNA) of about 21 to 23 nt in length, with 5'terminal phosphate and 3'short overhang ( ⁇ 2 nt). siRNA targets the corresponding mRNA sequence specifically for disruption (Zamore P. D. Nature Structural Biology, 8, 9, 746-750, (2001)).
- siRNA short interfering RNA
- RNAi can also be efficiently induced using chemically synthesized siRNA duplexes of the same structure with 3'-overhang ends (Zamore PD et al., Cell, 101, 25-33, (2000)). Synthetic siRNA duplexes have been shown to specifically inhibit the expression of endogenous and heterogeneous genes in a wide range of mammalian cell lines (Elbashir SM. et al., Nature, 411, 494-498, (2001)).
- nucleic acid generates a ribozyme capable of cleaving the nucleic acid at a specific site during transcription, and thus is useful in affecting gene expression.
- Background references on ribozymes include [Kashani-Sabet and Scanlon, 1995, Cancer Gene Therapy, 2(3): 213-223, and Mercola and Cohen, 1995, Cancer Gene Therapy, 2(1), 47-59]. This includes.
- the methods of the invention may comprise administering to the subject a PARP inhibitor. This may occur subsequent to the identification of the individual as having a cancerous condition that lacks HR dependent DNA DSB repair.
- the PARP inhibitor may be any substance capable of inhibiting the activity of the PARP enzyme, but preferably AZD2281 (Olaparib), ABT888 (Veliparip, Veliparib), AG014699 (Lukaparib, Rucaparib) , MK-4827 (Niraparib), BMN-673 (Talazoparib), BSI201 (Iniparib), BGP15 (O-(3-piperidino-2-hydroxy-1-propyl)nicotinicamidoxime), INO1001(3-Aminobenzamide), ONO2231, nicotinamide, 3-aminobenzamide, ,4-dihydro-5-[4-(1-piperidinyl)butoxy]-1( 2H)-isoquinolone (3,4-dihydro-5-[4-(1-piperidinyl)butoxy]-1(2H)-isoquinolone), benzamide, quinolone, isoquino
- the PAPR inhibitor is the tosylate salt of talasoparip.
- Thalazoparib has the structure shown below:
- MAD2L2 deficiency is known to be associated with PARPi resistance (Xu et al., 2015).
- TP53BP1 selects the DNA double-strand break repair pathway, promotes the NHEJ pathway, and functions to limit HR function, and the decrease in TP53BP1 induces resistance to PARPi in BRCA1-deficient mouse tumors (Jaspers et al. , 2013) It is known to be a predictor of PARPi resistance in tumor patients deficient in ATM (Hong et al., 2016).
- XRCC5 plays a role in repairing DNA double-strand damage by NHEJ (Weterings et al., 2016), and in ovarian cancer patients with BRCA1 mutations, when the expression of XRCC5 is decreased due to miR-622, it induces resistance of PARPi and cisplatin.
- Known Choi et al., 2016
- XRCC6 forms a complex with XRCC5 and is involved in repair of double-stranded damage and repair of non-homologous DNA ends such as those required for V(D)J recombination.
- miR-622 reduces the expression of XRCC6. It is known to induce resistance of PARPi and cisplatin (Choi et al., 2016).
- SLFN11 expression is associated with sensitivity to small cell lung cancer cells when talazoparib is used alone or in combination with temozolomide (Murai et al., 2016), and loss of SLFN11 is known to confer resistance to talazoparib in small cell lung cancer. (Lok et al., 2017)
- BRCA1 maintains genetic stability for homologous recombination-dependent DNA double-strand break repair, and also acts as a tumor suppressor.
- BRCA1 defects or mutations show sensitivity to PARP inhibitors, RBBP8, CHEK2, BRIP1, FANCD2, PALB2 And BRCA2 are known to interact with genes.
- BRCA2 maintains genetic stability for homologous recombination-dependent DNA double-strand break repair, and BRCA2 defects or mutations show sensitivity to PARP inhibitors, and are known to interact with genes such as BRCA1, RAD51, and PALB2.
- NHEJ nonhomologous end-joining
- HR homologous recombination
- NHEJ nonhomologous terminal ligating
- HR homologous recombination
- HR performs accurate DNA repair because it repairs the DNA of the damaged area using the information of the intact homologous sister chromatid. Therefore, homologous recombination (HR) plays an important role in the proper conservation of the genome.
- BRCA1 and BRCA2 proteins are known to play an important role in the process of repairing the cleavage of DNA double strands through homologous recombination (HR).
- BRCA1 binds with the abraxas-RAP80 macro-complex to the cut DNA site, participates in DNA resection through interaction with CtIP and MRN complex, and helps damaged DNA to be repaired through homologous recombination (HR).
- BRCA1 plays a role in allowing RAD51, a protein that plays a pivotal role in homologous recombination (HR), to gather at damaged DNA sites, and this process requires interaction with PALB2 (Partner and Localizer of BRCA2) and BRCA2, which is responsible for CHK2.
- BRCA1 is known to be involved in not only homologous recombination (HR), but also in detecting or responding to DNA damage, and this is through interactions with proteins involved in cell cycle regulation or other proteins involved in DNA repair. Done.
- HR homologous recombination
- BRCA2 has eight BRCrepeats that can bind to RAD51 and a DNA-binding site.
- the DNA binding site of BRCA2 has a structure capable of binding to single-stranded and double-stranded DNA, so that BRCA2 is located in damaged DNA, and through BRC repeats, RAD51 is transferred to damaged DNA.
- BRCA2 is a huge protein with 3418 amino acids, and it is difficult to purify it, so studies have been conducted with only the parts of BRCA2. Recently, the full-length BRCA2 protein has been successfully purified and further studies have been conducted.
- BRCA2 catalyzes the binding of RAD51 instead of RPA to a single strand of RPA-conjugated DNA resulting from DNA resection during the homologous recombination (HR) process, resulting in successful homologous recombination (HR).
- BARD1 interacts with the N-terminus of BRCA1 and is known to affect the sensitivity of PARP inhibitors (Peng et al., 2019).
- PALB2 can act on tumor suppression, and is located in the nucleus by binding to BRCA2, and the PALB2 mutation is sensitive to olaparib treatment, and exhibits a function similar to BRCA1/2 (Thales et al., 2017), BRCA1, BRCA2, It is known to interact with genes such as RAD51C.
- RAD51 is known to be correlated with olaparib, and its intracellular location and DNA binding capacity are regulated by BRCA2.
- ATM plays a role as a regulator of sub-signaling molecules such as p53 and BRCA1, which are tumor suppressor proteins in the signaling pathway, and is known to be sensitive to olaparib when ATM is deficient (Montani et al., 2013).
- ATR is a serine/threonine kinase and DNA damage detector, activates cell cycle checkpoint signals in a DNA stress situation, and is known to be sensitive to PARPi when ATR is lost (Rimar et al., 2017). ).
- RAD51B is known that the RAD51B mutation is sensitive to PARPi (Romeo et al., 2018).
- RAD51C is very sensitive to olaparib when deficient and is considered a biomarker predicting anticancer effects (Min et al., 2013).
- NBN is a member of the double-strand damage repair complex MRE11/RAD50, and is believed to be involved in DNA double-strand break repair, and mutation or deletion of NBN is known to induce the BRCAness phenotype (Rowe and Glazer 2010).
- FANCA and FANCD2 Deficiency of FANCA and FANCD2 is known to be sensitive to PAPR inhibitors KU0058684 and KU0058948 (McCabe et al., 2006).
- FANCM deficiency is known to be sensitive to PARP inhibitors (Stoepker et al., 2015).
- FANCI is known to regulate the recruitment of the core complex of Fanconi Anemia at the site of DNA damage (Castella et al., 2015).
- STK11 regulates cell polarity and plays a role as a tumor suppressor, and STK11 deficiency is known to be sensitive to PARPi (Wang et al., 2016).
- MRE11 is a nuclear protein involved in the repair pathway for DNA double-strand damage dependent on homologous recombination, and the loss of MRE11 is known to be very sensitive to PARPi (Romana et al., 2014).
- RAD50 is a component of the MRN (MRE11-RAD50-NBN) complex that plays an important role in repairing double-stranded damage, DNA recombination, and maintenance of telomere, and is known to affect the response of olaparib depending on the amount of RAD50 expression (Zhang et al. ., 2016).
- RAD51D has a secondary mutation, and the RAD51D mutation is known to be resistant to PARPi (Kondrashova et al., 2017).
- CHEK2 is a cell cycle checkpoint regulator and is believed to be a tumor suppressor, and the loss of CHEK2 is known to affect the decrease in cell viability induced by talazoparib (Engert et al., 2017).
- CDH1 is involved in a mechanism that regulates cell-cell adhesion, mobility and cell proliferation, but is known to contribute to the progression of cancer when its function is lost.
- RBBP8 acts in the same pathway as BRCA1 and may be a tumor suppressor, and the loss of RBBP8 interferes with the repair of homologous recombination-dependent DNA double-strand damage, and makes breast cancer cells sensitive to olaparib (Wang et al., 2015), BRCA1, It is known to interact with the MRN complex, MRE11, RAD50, and NBN.
- BRIP1 interacts with the BRCT domain of BRCA1, and protein cleavage mutations in BRIP1 are known to be correlated with the risk of ovarian cancer (Ramus et al., 2015).
- PTEN is a tumor suppressor, and it is known that it reacts sensitively to PARPi when a homozygos mutation occurs (Ana et al., 2009), and that phosphorylated PTEN interacts with STK11.
- BLM is known to interact with ubiquitinated FANCD2.
- TP53 encodes a tumor suppressor protein, and mutations in p53 are associated with a variety of carcinomas.
- BRCA2, TP53, and PTEN all show a sensitive response to olaparib in deleted mouse-derived cells (Baldwin et al., 2019), and proteolytic cleavage of TP53. It has been suggested that the mutation may be a direct result of genetic instability due to BRCA1 deletion (Holstege et al., 2010).
- EMSY can play a central role in the DNA repair function of BRCA2 through the interaction with BRCA2, and when EMSY is amplified, it is related to the sensitivity to rucaparib, and is known to share PALB2 and BRCA2 binding sites (Xia et al. al., 2006).
- FANCF inactivation is associated with the BRCAness phenotype or PARPi sensitivity, and is known to stabilize Fanca and Fancc, which are key components of the FA DNA repair pathway, by interacting with Fanca, Fancc and Fancg.
- ERCC1 plays a role in the nucleic acid cleavage repair pathway, and when both ERCC1 and BRCA1 are deficient, it is known to be sensitive to platinum treatment and PARPi.
- XRCC1 interacts with DNA ligase III, polymerase-beta, and PARP to act on the BER pathway, and PARPi is known to interfere with recruitment of the BER effector XRCC1 and NHEJ mediators XRCC4 and Ku70/80 at the DNA damage site (Chandra et al., 2017).
- the determination of the positive or negative of the Biallelic Genetic Impairment can be made by confirming the presence or absence of a mutation occurring in both alleles in the case of diploid.
- BGI positive means a case in which there is a deficiency in homologous recombination, and when treated with a PARP inhibitor, it means a sample that is expected to show high sensitivity.
- BGI Biallelic genetic impairment
- the genetic (germline) mutation is defined as follows. Genetic mutations are mutations identified through genetic testing using blood, and refers to mutations identified as SNV or INDEL based on information provided by 1000genome and COSMIC database. SNV refers to a mutation that is a deleterious mutation, and includes mutations in Frameshift, Nonsense, and splice-site variants (2 ⁇ 5bp). INDEL refers to a case in which a nucleotide sequence of 30 bp or less in a gene is deleted or inserted and the original function of the gene is not performed.
- somatic mutation is defined as follows. Somatic mutation is a mutation identified through genetic testing using tissue, and refers to a mutation identified as SNV or INDEL. Among the identified mutations, it is selected as a pathogenic mutation through the following process.
- plasmid library containing all SNVs present within 100 bp was prepared using Cas9 / gRNA (SNV library).
- SNVs that impair the function of genes in transformed cells are selected, and if the SNVs also affect mRNA production, they are selected as pathogenic mutations.
- epigenetic silencing is defined as follows.
- Epigenetic silencing is a step in which the amount of RNA expression is lowered, and it is confirmed by the coverage depth that the expression of the gene has been reduced using an RNA panel.
- the decrease in the amount of expression can be attributed to deletion of exon and pathogenic mutation.
- macro-deletion refers to a mutation in which the nucleotide sequence of a region corresponding to 15 Kb or more has been deleted through genetic testing using blood and tissue. Confirmation of the deleted nucleotide sequence is confirmed by Coverage. When the coverage maintained at a certain level decreases to less than half (0.4 ⁇ 0.6 times), it is judged as a macro-deletion area (heterozygosity).
- each gene in the panel is classified as BGI when any of the following conditions are satisfied.
- Biallelic genetic impairment is defined as follows.
- one allele impairment is the ratio that represents only one allele with mutation in the total number of alleles including wild-type, Is calculated as.
- a is an allele with mutation
- a constant 200 is a value calculated as the status (100%, tumor + normal cell) x 2 alleles of all alleles in the tumor.
- allele frequency (variant allele frequency) information of PARP inhibitor-sensitive genes can be used as follows.
- Standard Tumor Fraction is the calculation of the allele frequency in the tissue unit, and refers to the ratio of alleles of the tumor tissue among the total tissues, and is calculated as follows.
- the standard tumor fraction calculated as described above represents the minimum value of the probability of having BGI, and this value is determined by Adj. Compared with AF, BGI can be judged.
- Adj. AF is the frequency of alleles derived by analyzing lead data generated based on NGS
- the Standard Tumor Fraction is the frequency of alleles possessed by tumor tissues in an actual tissue sample. Therefore, Adj. If AF is higher than the standard tumor fraction, it can be judged that both alleles are defective, and if not, it can be judged as one allele impairment or WT.
- the Standard Tumor Fraction is calculated as 67%, and the subject's Adj. If AF is 73%, Adj. Since the AF value is larger than the standard tumor fraction, it is judged as BGI positive.
- BGI negative refers to a case where there is a mutation in the resistance gene at the same time even if there is no deficiency or deficiency in homologous recombination. it means.
- VAF Variant allele frequency
- CNA copy number alteration
- BGI was determined based on the results of the'harmful mutation' and'replica number mutation' surveys above.
- the present invention comprises the steps of: (a) analyzing a patient-derived nucleic acid molecule to determine the genotype of the PARP inhibitor resistance gene group and the PARP inhibitor sensitive gene group; And
- the method comprises (i) a mutation appears in one or more genes of the PARP inhibitor resistance gene group, or
- the present invention determines the PARP inhibitor sensitivity by analyzing the presence or absence of mutations in both alleles of each gene group, it is characterized by high accuracy compared to the conventional method of determining only the presence or absence of simple mutations.
- the PARP inhibitor resistance gene group is any gene that reduces the effect of the PARP inhibitor when a mutation occurs in a specific gene, but is preferably a soldier consisting of MAD2L2, TP53BP1, XRCC5, XRCC6 and SFLN11. It can be, but is not limited thereto.
- the PARP inhibitor sensitive gene group is all possible if a mutation occurs in a specific gene, as long as the PARP inhibitor generates a cancer therapeutic effect, but preferably BRCA1, BRCA2, BARD1, PALB2, RAD51, ATM Consisting of, ATR, RAD51C, RAD51B, NBN, FANCA, FANCD2, FANCM, FANCI, STK11, MRE11A, RAD50, RAD51D, CHEK2, CDH1, RBBP8, BRIP1, PTEN, BLM, TP53, CDK12, EMSY, FANCF, ERCC1 and XRCC1 It may be characterized as being a soldier, but is not limited thereto.
- the mutation may be characterized in that it includes a deleterious mutation and a copy number alteration.
- the harmful mutations include: i) protein truncating alterations having a stop codon at a site preceding the normal position in the coding region;
- iii It may be characterized by including frameshift alterations in which a codon is changed due to insertion or deletion of a part of the nucleotide sequence within the coding region.
- the copy number mutation includes a copy number deletion mutation in which one or more nucleic acids or codons are deleted and a copy number amplification mutation in which one or more nucleic acids or codons are amplified. It can be characterized by that.
- the harmful mutation is at least one method selected from the group consisting of nucleotide sequence substitution, insertion, deletion, copy number alteration, and rearrangement. It may be characterized by occurring as.
- step (b) mutations in both alleles of the PARP inhibitor sensitive gene are detected by a method comprising the step of calculating the biallelic genetic impairment (BGI) of the patient-derived nucleic acid molecule. You can do it.
- BGI biallelic genetic impairment
- the BGI may be calculated using a standard tumor fraction of a patient-derived nucleic acid molecule and an adjusted allele frequency of PARP inhibitor-sensitive genes.
- the tumor fraction may be characterized in that it is calculated by Equation 2 below.
- the adjusted allele frequency of the PARP inhibitor-sensitive genes may be characterized in that it is calculated by Equation 1:
- alt allele means an allele in which mutation has occurred.
- the BGI is calculated as 1 when the adjusted allele frequency of the PARP inhibitor sensitive genes is greater than or equal to the standard tumor fraction of the patient-derived nucleic acid molecule, and calculated as 0 when it is less than. It can be characterized by that.
- the mutation of both alleles of the PARP inhibitor-sensitive gene in step (b) is determined to have mutations in both alleles when the BGI value is 1, and when it is 0, the allele It may be characterized in that it is determined that there is no mutation on both sides or only one of the mutations.
- SSCP Single Strand Conformation Polymorphism
- AFLP Amplified Fragment Length Polymorphism
- RFLP Restriction Fragment Length Polymorphism
- RAPD Random Amplified Polymorphic DNA
- AS-PCR Allele-Specific PCR
- the present invention analyzes the mutation using a single-strand conformation polymorphism or single-strand chain polymorphism (SSCP) method.
- the method is a method that is widely used for SNP genotyping, and is defined as the morphological difference of single-stranded nucleotide sequences of the same length induced by the difference in sequence under specific experimental conditions. This property makes it possible to distinguish sequences by gel electrophoresis, which separates fragments according to different morphology (Masato Orita, et al., (1989). Proc. Natl. Acad. Sci. USA. 86 (8)) : 2766-2770).
- the double-stranded DNA is denatured under high temperature conditions (94°C) to form a single strand and then rapidly cooled to form a unique three-strand structure.
- 94°C high temperature conditions
- each single strand with a difference in sequence has a different mobile phase. Even if the lengths are the same, if they have different base structures in them, they are distinguished in the mobile phase, so the variation can be confirmed by comparing the moving speed between samples.
- the present invention analyzes the mutation by the amplified fragment length polymorphism (AFLP) method.
- AFLP amplified fragment length polymorphism
- a restriction enzyme is used to degrade genomic DNA, and an adapter is connected to the sticky end of the restriction fragment. Subsequently, a subset of the restriction fragment is selected to be amplified. This is to compare the difference in the band pattern obtained by amplifying each fragment using a primer prepared based on the base sequence of the adaptor after attaching an adapter to the fragments of DNA cut with a specific restriction enzyme that does not have many recognition sites.
- AFLP has many advantages compared to other marker technologies such as randomly amplified polymorphic DNA (RAPD), restriction fragment length polymorphism (RFLP) and microsatellites.
- AFLP not only has higher reproducibility, resolution, and sensitivity at the whole genome level compared to other technologies (Mueller UG, et al., (October 1999). Trends Ecol. Evol. 14 (10): 389-394), Han. It has the ability to amplify 50 to 100 fragments at a time.
- prior sequence information is not required for amplification (Meudt HM, Clarke AC (March 2007). Trends Plant Sci. 12 (3): 106-17). Not only can it be applied to lines with rare polymorphisms, it has the advantage of being able to amplify restriction enzyme fragments that do not know the DNA sequence at both ends.
- the present invention analyzes the mutation by the RFLP (restriction fragment length polymorphism) method.
- the method is a method of typing SNP by checking the difference in length of the DNA fragment by treatment with restriction endonuclease. It is used when the SNP site present on the DNA fragment amplified through PCR can be distinguished by a specific restriction enzyme. Due to the SNP of the amplified fragment, the sequence of the restriction site for a specific restriction enzyme is different, resulting in a difference in fragment length of the two SNP alleles, which can be easily identified on an agarose gel. Many types of restriction enzymes are commercially available, and software that finds a recognition site acting on a desired sequence is provided free of charge on the web, so it can be easily used. However, 30-40% of SNPs do not have a restriction site, and to solve this, a restriction site that does not exist by changing 1 to 2 bp on the primer is sometimes used for typing (primer mutagenesis).
- the present invention analyzes mutations using the RAPD (Random Amplified Polymorphic DNA) method.
- RAPD Random Amplified Polymorphic DNA
- This method is a kind of PCR, but the DNA portion to be amplified is random.
- An arbitrary short primer (8-12bp) is used to amplify only the regions matched by the complementary nucleotide sequence.
- This method is very simple because you only need to investigate the pattern of DNA fragments appearing on the agarose gel.
- very small primer fragments can be amplified as long as they have approximately 70% homology to DNA, and thus require extremely careful experimental conditions.
- the terminal sequence of the amplified site is analyzed and then resynthesized with a specific primer, there is no problem in reproducibility, so it is a method that can be sufficiently used for association analysis.
- the present invention analyzes mutations by an allele-specific polymerase chain reaction (AS-PCR) method.
- AS-PCR allele-specific polymerase chain reaction
- This method is an application method of PCR that can directly detect any point mutation in DNA by analyzing the PCR product on agarose or polyacrylamide gel stained with ethidium bromide (Luis Ugozzoli, et al., Methods, Volume 2, Issue 1 , February 1991, Pages 42-48). It is based on the fact that the 3'end of the primer must be complementary to the DNA template in PCR amplification.
- the present invention analyzes mutations through Real-time PCR using a fluorescent dye.
- the present invention analyzes mutations by Tm-shift genotyping using a GC-tail primer.
- the above method is similar to allele-specific PCR, and if a DNA template is amplified with a reverse primer specific to each SNP allele, the GC-tailed allele has a higher Tm than the non-attached allele.
- SNP typing is performed by monitoring the difference between these Tm values. The difference in Tm value is that when heat is slowly applied to the product after PCR, the fluorescence of SYBR Green labeled on the primer disappears, and by measuring this, each SNP is typed.
- This method uses the characteristic that the fluorescence of SYBR Green is strong when it is double stranded DNA, and the signal gradually weakens as it is denatured into a single strand.
- the present invention analyzes the mutation using a dynamic allele-specific hybridization (DASH) method.
- DASH dynamic allele-specific hybridization
- the method uses the difference in melting temperature of DNA resulting from the instability of mismatched base pairs. After amplifying the desired site using a biotinylated primer on one side, immobilized in a well coated with strptavidin, treated with NaOH to denature to make a single strand, and then remove the unbiotinylated strand to hybridize the allele specific probe. If SYBR Green (a dye specific to the double strand) is added and then slowly heated to 95°C at 1°C intervals, the difference between the Tm values is shown schematically when the base sequence is completely matched and when a single-base mismatch occurs.
- SYBR Green a dye specific to the double strand
- the detection principle is similarly to using the characteristic that the fluorescence of SYBR Green is strong when it is double stranded DNA and the signal gradually weakens as it is denatured into a single strand (Howell WM; et al., (January 1999). Nat. Biotechnol. 17 (1)) : 87-8).
- the 5'-nuclease activity of Taq DNA polymerase is used in TaqMan assay for SNP genotyping.
- TaqMan analysis is a method of discriminating the difference between matched or not matched on the nucleotide sequence in which the SNP is present, through a fluorescent material. It is performed simultaneously with the PCR reaction, and the results can be read in real time as the PCR reaction proceeds.
- This assay requires forward and reverse PCR primers to amplify the region containing the SNP polymorphic site. Allele discrimination is achieved using FRET with one or two allele-specific probes that hybridize to the SNP polymorphic site.
- the probe has a fluorophore connected to the 5'end and a quencher molecule connected to the 3'end. While the probe is intact, the quencher removes the signal from the fluorophore while maintaining proximity to the fluorophore.
- the allele-specific probe is perfectly complementary to the SNP allele, it will bind to the target DNA strand and degrade by the 5'-nuclease activity of Taq polymerase as the DNA extends from the PCR primer. Degradation of the probe results in the separation of the fluorophore from the quencher molecule, producing a detectable signal. If the allele-specific probe is not completely complementary, the melting temperature is lowered and thus cannot be efficiently combined. This prevents the nuclease from acting on the probe.
- TaqMan analysis is based on PCR, it is relatively simple to implement. TaqMan assays can be multiplexed by combining detection of up to 7 SNPs in one reaction. However, since each SNP requires a unique probe, TaqMan analysis is limited by how close the SNP is. By performing many simultaneous reactions on microtitre plates, the scale of the assay can be greatly increased. In general, TaqMan has limitations in its application, such as being able to investigate a small number of SNPs, since it is necessary to design optimal probes and reaction conditions for each SNP.
- the present invention analyzes mutations using Molecular Beacons.
- the molecular beacon is an oligonucleotide hybridization probe capable of reporting the presence of a specific nucleic acid in a homogeneous solution.
- Molecular beacons are hairpin-type molecules with internally quenched fluorophores that restore fluorescence when binding to a target nucleic acid sequence.
- SNP detection through molecular beacons uses a specially engineered single stranded oligonucleotide probe. Oligonucleotides are designed such that there is a region complementary to each end and a probe sequence positioned therebetween. This design allows the probe to take on a naturally separated hairpin or stem-loop structure.
- a fluorophore is attached to one end of the probe and a fluorescence quencher is attached to the other end.
- the stem-loop structure of the probe makes the fluorophore close to the quencher and prevents the molecule from emitting fluorescence.
- the molecule is also engineered so that only the probe sequence is complementary to the genomic DNA to be used in the analysis.
- the loop part contains a base sequence specific to the target (about 10 to 40 bases), and the stem is formed with a complementary base sequence of 4 to 7 bases at both ends.
- the reporter fluorescent dye is attached to the probe 5'and the dye is attached to the universal quencher for the 3'. When the loop part is hybridized to the specific target sequence, the quencher and reporter fluorescent dye are separated to show fluorescence. This is a method of typing SNP by measuring the difference between these Tm values of matched sequence and mis-matched sequence.
- the present invention analyzes mutations using OLA (Oligonucleotide Ligase Assay).
- OLA Oligonucleotide Ligase Assay
- two probes are designed.
- DNA ligase catalyzes the ligation of the 3'end of a DNA fragment directly to the 5'end of the adjacent DNA fragment. This mechanism allows the irradiation of SNPs by directly hybridizing the two probes to the SNP polymorphic site, so ligation may occur if the probe is identical to the target DNA.
- the two probes designed in OLA are an allele-specific probe that hybridizes to the target DNA so that the 3'base is located directly above the SNP nucleotide, and the template upstream (downstream in the complementary) of the SNP polymorphic site providing the 5'end for ligation reactions. strand). If the allele-specific probe matches the target DNA, it will fully hybridize to the target DNA and ligation can occur. In general, if there is a mismatched 3'base, ligation does not occur. Ligated or unligated products can be detected by gel electrophoresis, MALDI-TOF mass spectrometry or capillary electrophoresis for large-scale applications (Harbron S; Rapley R (2004). Molecular analysis and genome discovery.
- high throughput sequence data can be generated from ligated products and determined genotypes (Curry et al., 2012). High-throughput sequence data can be obtained from hundreds of SNPs out of thousands of samples generated in a small fraction of a high-efficiency sequencing run using a large number of sample indexes. This is massive genotyping by sequencing technology (MGST).
- Flap Endonuclease is an endonuclease that catalyzes structure specific cleavage. This cleavage is very sensitive to mismatch and can be used to investigate highly specific SNPs (Olivier M (June 2005). Mutat. Res. 573 (1-2): 103-10).
- Invader Assay is a method using Flap Endonuclease (FEN).When single bases match when invader probe and normal probe or mutand probe are hybridized to target DNA, one base invasion occurs and 5'end Is cleaved, and this fragment binds to the three-dimensional structure of a signal oligonucleotide with a reporter arm to induce cleavage of the fluorescent substance labeled at the end of the arm, resulting in fluorescence (Ryan et al. 1999). By detecting this, the SNP is identified.
- FEN Flap Endonuclease
- dd-nucleotide In the didioxynucleotide (dd-nucleotide), the -OH group is substituted with the H group at the 3′ position of the ribose of the normal nucleotide. During normal DNA synthesis, ddNTPs can also bind to the DNA chain. However, after entering the DNA chain, since ddNTPs have no -OH at the 3'position, the next nucleotide can no longer bind and the elongation reaction is terminated.
- Each test tube commonly contains dNTP (dATP, dTTP, dGTP, dCTP), which is a component of DNA.
- dNTP dATP, dTTP, dGTP, dCTP
- Each test tube contains a different ddNTP chain terminator, so one test tube contains ddATP, the next test tube contains ddTTP, the next test tube contains ddGTP, and the next test tube contains a small amount of ddCTP.
- one of the dNTPs or primers should be labeled with radioactivity (32P). For example, since ddGTP randomly enters the G position, ddGTP can theoretically fit into any G position.
- each DNA chain synthesized in this reaction ends at all G points, you can see where G exists by looking at the length of the synthesized chain.
- test tube A the polymerization of the chain can end at all points A, in test tube T, at all points T, and in test tube C, at all points C, a series of DNAs of different lengths are produced for each test tube.
- the DNA is denatured in each test tube so that various newly synthesized strands come off the template.
- A, T, G, C After electrophoresis in different lanes for each base reaction test tube, the separated DNA fragments according to their length are observed by autoradiography.
- the DNA sequence can be determined by reading the band, which is a fragment of DNA that has moved according to its position in each of the adjacent lanes A, C, G, and T.
- NGS Next Generation Sequencing
- NGS is a name that is called to distinguish it from the first automated devices before, and to distinguish them from Next NGS devices (also referred to as the next generation or third generation NGS) that were created afterwards.
- NGS Next Generation Sequencing
- the sequencing technology of each generation becomes ambiguous, and the division between NGS Is used in a broad sense encompassing all of the sequencing technology after the automated Sanger sequencing technology.
- NGS The technology introduced in NGS can be largely divided into three types: clonal amplification, massively parallel, and a new readily readable sequencing method (non-Sanger method) (base/color calling).
- Clonal amplification has the effect of removing the cloning process by removing the library construction process, and the mass-parallel method handles hundreds of thousands of clones at the same time, thus improving the efficiency.
- the new, ready-to-read sequencing method shows the effect of eliminating capillary electrophoresis.
- the process of obtaining a template clone was simplified by clonal amplification.
- a template DNA with a length of about 500 base pairs is required.
- short fragments must be cloned through subcloning and then amplified in bacteria.
- the new method eliminates both the cumbersome library construction and cloning process, cuts DNA into short fragments as appropriate, and then amplifies it by PCR using primers to obtain a template clone.
- Strategies such as bead-based, solid-satate, and DNA nanoball generation are used for clonal amplification.
- emulsion PCR For bead-based clone amplification, emulsion PCR is used.
- a DNA library an aggregate obtained by fragmenting genomic DNA, is spatially separated into small droplets of aqueous solution in oil, and then one PCR primer is used as an emulsion with microbeads modified on the surface.
- Amplify in (emulsion) This is a method in which more than 1 million cloned DNA fragments derived from one single DNA fragment are fixed to one bead.
- a representative solid state method is a bridge-amplification method.
- adapter oligonucleotides are connected to both ends of the fragmented DNA and then flowed onto the surface of a glass flow cell to randomly bind to an adapter fixed to the surface and a complementary primer.
- PCR is carried out in this state, the free ends of the DNA fixed to the free primers present in the surroundings are bound to form a bridge, and amplification proceeds.
- amplification proceeds in this way, a cluster that plays the same role as the bead is formed.
- NGS introduces a massively parallel method and arranges the clones in a plate shape to perform nucleotide sequence analysis.
- the number of template clones is very large, so preparing them separately will take a lot of time.
- the process of reading the sequence signal from the template also becomes a serious limiting factor that decreases the efficiency. If hundreds of thousands of different clones are processed in a mass-parallel manner, time can be drastically reduced.
- the nucleotide sequence determination method which replaces the Sanger method, is largely divided into a sequencing method through DNA ligation (Sequencing By Ligation, SBL) and a sequencing method through polymerization (Sequencing By Synthesis, SBS).
- the SBL method uses repetitive ligation of DNA fragments.
- An anchor with n bases is complementarily bound to a template DNA, and two randomly encoded bases labeled with a fluorescent label and their Probes with subsequent degenerate or universal bases are added to the DNA library slide in which the beads or clusters have been precipitated.
- a probe having two encoded sequences complementary to the template DNA fragment immediately following the anchor is ligated to the anchor, and the two encoded nucleotide sequences are analyzed through fluorescent label imaging of the slide. When the two sequences are analyzed, the degenerate base sequence and the fluorescent particles are removed, and the above process of adding a probe is repeated.
- This is a method of analyzing the sequence of the entire template DNA fragment by repeatedly analyzing and using anchors having bases of n+2 and n+4 in addition to the above-described n anchor.
- SBS is again divided into a cyclic reversible termination (CRT) and a single nucleotide addition (SNA).
- CRT cyclic reversible termination
- SNA single nucleotide addition
- the CRT method uses a process similar to the automated Sanger method, in which a mixture of primers, DNA polymerase, and modified nucleotides is added to a slide having a DNA cluster amplified using the solid state method.
- the modified nucleotide is blocked with 3'-O-azidomethyl so that no additional polymerization process can occur, and is labeled with a fluorescent label specific to each base and removable later.
- the unpolymerized base is washed off and the base is identified by imaging using a total internal reflection fluorescence (TIRF) microscope.
- TIRF total internal reflection fluorescence
- the fluorescent label is decomposed and the 3'-OH is regenerated with the reducing agent Tris 2-Carboxyethyl)phosphine (TCEP). This process is repeated to analyze the sequence of the template DNA without electrophoresis.
- the SNA method is a method of analyzing nucleotide sequence by converting ions generated when DNA polymerase attaches a single nucleotide into light.
- the SNA method is represented by the pyrosequencing method used by Roche's 454 device, which is a method of reading the pyrophosphate released when nucleotides are bound with light. If 4 kinds of dNTPs (A, G, T, C) are sequentially added and reacted and washed repeatedly, light is emitted every time the polymerization reaction occurs, so this is a method to find the base sequence.
- Representative analyzers using SBL include the former Life Technologies' SOLiD series, and representative analyzers using SBS include Illumina's Hiseq series (CRT method) and Roche's 454 series (SNA method).
- tissue samples can be a source of nucleic acid samples used in the present method.
- a genomic or subgenomic nucleic acid e.g., DNA or RNA
- may be a sample of a subject e.g., a tumor sample, a normal adjacent tissue (NAT), a blood sample, a sample containing tumor cells in the blood (CTC) or any Normal control
- the tissue sample is preserved as a frozen sample or as a formaldehyde- or paraformaldehyde-fixed paraffin embedded (FFPE) tissue preparation.
- the sample can be embedded in a matrix, such as a FFPE block or frozen sample.
- the separation step includes flow-sorting of individual chromosomes; And/or micro-dissection of the subject sample (eg, tumor sample, NAT, blood sample).
- a "isolated" nucleic acid molecule is one that is isolated from another nucleic acid molecule present in a natural source of the nucleic acid molecule.
- an “isolated” nucleic acid molecule is a sequence that naturally flanks the nucleic acid in the genomic DNA of the organism from which the nucleic acid is derived (eg, a protein-encoding sequence) (ie, a sequence located 5′ and 3′ of the nucleic acid). There is no.
- the isolated nucleic acid molecule is less than about 5 kB, less than about 4 kB, less than about 3 kB, less than about 2 kB, about that naturally flank the nucleic acid molecule in the genomic DNA of the cell from which the nucleic acid is derived. It may contain less than 1 kB, less than about 0.5 kB, or about 0.1 kB of nucleotide sequence.
- isolated nucleic acid molecules such as cDNA molecules, may be substantially free of other cellular material or culture when produced by recombinant techniques, or substantially free of chemical precursors or other chemicals when chemically synthesized.
- nucleic acid molecule substantially free of cellular material includes the preparation of a nucleic acid molecule in which the nucleic acid molecule has been isolated or has been separated from the cellular component of a recombinantly produced cell.
- a nucleic acid molecule substantially free of cellular material is less than about 30%, less than about 20%, less than about 10%, or less than about 5% (by dry weight) of other cellular material or nucleic acid molecules having different culture media.
- the nucleic acid is isolated from an age sample, eg, an age FFPE sample.
- the age sample can be, for example, age, e.g. 1, 2, 3, 4, 5, 10, 15, 20, 25, 50, 75 or 100 years old or older. .
- Nucleic acid samples can be obtained from tissue samples of various sizes (eg, biopsies or FFPE samples).
- nucleic acids can be isolated from tissue samples of 5 to 200 ⁇ m or larger.
- a tissue sample may be measured to be 5 ⁇ m, 10 ⁇ m, 20 ⁇ m, 30 ⁇ m, 40 ⁇ m, 50 ⁇ m, 70 ⁇ m, 100 ⁇ m, 110 ⁇ m, 120 ⁇ m, 150 ⁇ m, or 200 ⁇ m or more.
- Example 1 The protocol for DNA isolation from tissue samples is provided in Example 1. Additional methods for isolating nucleic acids (eg DNA) from formaldehyde- or paraformaldehyde-fixed, paraffin-embedded (FFPE) tissues are described, for example, in Cronin M. et al., (2004) Am. J Pathol. 164(1):35-42; Masuda N. et al., (1999) Nucleic Acids Res. 27(22):4436-4443; Specht K. et al., (2001) Am J Pathol. 158(2):419-429], Ambion RecoverAll® full nucleic acid isolation protocol (Ambion, Cat. No.
- FFPE paraffin-embedded
- the Maxwell® 16 FFPE Plus LEV DNA Purification Kit is used with a Maxwell® 16 instrument for purification of genomic DNA from 1-10 ⁇ m sections of FFPE tissue. DNA is stopped using silica-clad paramagnetic particles (PMP) and eluted with a low elution volume.
- PMP silica-clad paramagnetic particles
- the E.Z.N.A. (registered trademark) FFPE DNA kit uses a spin column and buffer system for the separation of genomic DNA.
- the QIAamp(R) DNA FFPE tissue kit uses the QIAamp(R) DNA micro technique for purification of genomic and mitochondrial DNA. Protocols for DNA isolation from blood are described in, for example, Maxwell® 16 LEV Blood DNA Kit and Maxwell 16 Oral Swab LEV DNA Purification Kit Technical Manual (Promega Document #TM333, 2011 January 1)].
- Protocols for RNA isolation are disclosed, for example, in Maxwell® 16 Total RNA Purification Kit Technical Bulletin (Promega Document #TB351, August 2009).
- An isolated nucleic acid sample (eg, a genomic DNA sample) can be fragmented or sheared by routine techniques.
- genomic DNA can be fragmented by physical shear methods, enzymatic cleavage methods, chemical cleavage methods, and other methods well known to those skilled in the art.
- Nucleic acid libraries can contain all or substantially all of the genomic complexity. The term “substantially all” in this context refers to the possibility that there may be some undesired loss of virtually any genomic complexity during the initiation phase of the process.
- the methods described herein are also useful when the nucleic acid library is part of a genome, ie when the complexity of the genome is reduced by design. In some embodiments, any selected portion of the genome can be used with the methods described herein. In certain embodiments, the entire exome or subset thereof is isolated.
- the methods featured in the present invention may further comprise the step of isolating a nucleic acid sample to provide a library (eg, a nucleic acid library as described herein).
- the nucleic acid sample comprises whole genomes, sub-genomic fragments, or both.
- the isolated nucleic acid sample can be used to prepare a nucleic acid library.
- the methods featured in the invention further comprise the step of isolating a nucleic acid sample to provide a library (eg, a nucleic acid library as described herein). Protocols for isolating and preparing libraries from whole genome or subgenomic fragments are known in the art (eg, Illumina's Genomic DNA Sample Preparation Kit).
- a genomic or subgenomic DNA fragment is isolated from a subject's sample (eg, a tumor sample, a normal adjacent tissue (NAT), a blood sample, or any normal control).
- the sample eg, a tumor or NAT sample
- the sample is a conserved sample.
- the sample is embedded in a matrix, such as a FFPE block or frozen sample.
- the step of separating comprises flow-separating the individual chromosomes; And/or microdissection of the subject sample (eg, tumor sample, NAT, blood sample).
- the nucleic acid sample used to make the nucleic acid library is less than 5 micrograms, less than 1 microgram, or less than 500 ng, less than 200 ng, less than 100 ng, less than 50 ng, less than 10 ng, less than 5 ng, or less than 1 ng.
- the nucleic acid sample used to make the library comprises RNA or cDNA derived from RNA.
- the RNA comprises total cellular RNA.
- a specific abundance RNA sequence eg, ribosomal RNA
- the poly(A)-tailed mRNA fraction in the total RNA preparation has been enriched.
- cDNA is produced by a random-primed cDNA synthesis method.
- cDNA synthesis is initiated at the poly(A) tail of the mature mRNA by an oligo(dT)-containing oligonucleotide. Methods for deletion, poly(A) enrichment and cDNA synthesis are well known to those of skill in the art.
- the method may further comprise the step of amplifying the nucleic acid sample by specific or non-specific nucleic acid amplification methods well known to those skilled in the art.
- the nucleic acid sample is amplified by a whole-genomic amplification method, such as random-primed strand-displacement amplification.
- nucleic acid samples are fragmented or sheared by physical or enzymatic methods, ligated to synthetic adapters, sized (e.g., by preparative gel electrophoresis), and amplified (e.g., by preparative gel electrophoresis). , By PCR).
- fragmented, adapter-ligated groups of nucleic acids are used without clarifying size selection or amplification prior to hybrid selection.
- the isolated DNA (eg, genomic DNA) is fragmented or sheared.
- the library comprises less than 50% of genomic DNA, such as a subfraction of genomic DNA that is a reduced representation, or a limited portion of a genome that has been subfragmented, for example by other means.
- the library includes all or substantially all genomic DNA.
- the library comprises less than 50% of genomic DNA, such as a subfragment of genomic DNA that is a reduced representation, or a limited portion of a genome that has been subfragmented, for example by other means.
- the library includes all or substantially all genomic DNA.
- Protocols for isolating and preparing libraries from whole genome or subgenomic fragments are known in the art (eg, Illumina's Genomic DNA Sample Preparation Kit).
- Alternative DNA shearing methods may be more automated and/or more efficient (eg, by digested FFPE samples).
- An alternative to the DNA shearing method can also be used to avoid the ligation step during library preparation.
- the methods described herein can be performed with small amounts of nucleic acid when the amount of source DNA is limited (eg, even after whole-genomic amplification).
- the nucleic acid is less than about 5 ⁇ g, 4 ⁇ g, 3 ⁇ g, 2 ⁇ g, 1 ⁇ g, 0.8 ⁇ g, 0.7 ⁇ g, 0.6 ⁇ g, 0.5 ⁇ g or 400 ng, 300 ng, 200 ng, 100 ng, 50 ng, 10 ng, 5 ng, 1 ng or less nucleic acid samples are included. For example, it can typically start with 50 to 100 ng of genomic DNA.
- genomic DNA eg, using PCR
- the nucleic acid sample used to make the library may also contain RNA or cDNA derived from RNA.
- the RNA comprises total cellular RNA.
- a specific abundance RNA sequence eg, ribosomal RNA
- the poly(A)-tailed mRNA fraction in the total RNA preparation has been enriched.
- cDNA is produced by a random-primed cDNA synthesis method.
- cDNA synthesis is initiated at the poly(A) tail of the mature mRNA by priming with an oligo(dT)-containing oligonucleotide. Methods for deletion, poly(A) enrichment and cDNA synthesis are well known to those of skill in the art.
- the method may further comprise amplifying the nucleic acid sample by specific and non-specific nucleic acid amplification methods known to those skilled in the art.
- Nucleic acid samples can be amplified by whole-genomic amplification methods, such as random-priming strand-displacement amplification, for example.
- Nucleic acid samples can be fragmented or sheared by physical or enzymatic methods described herein, ligated to synthetic adapters, sized (e.g., by preparative gel electrophoresis) and amplified (e.g., by preparative gel electrophoresis). By PCR). Fragmented, adapter-ligated groups of nucleic acids are used without clarifying size selection or amplification prior to hybrid selection.
- member or “library member” or other similar term refers to a nucleic acid molecule, eg, DNA or RNA that is a member of a library (or “library-catch”).
- the library member may be one or more of a tumor member, a reference member, or a PGx member as described herein.
- the member is a DNA molecule, such as a genomic DNA or cDNA molecule.
- the member can be genomic DNA fragmented, for example enzymatically or by shear.
- a member may comprise a nucleotide sequence from a subject, and also a nucleotide sequence or sample that is not derived from a subject, e.g., a primer or adapter (e.g., for PCR amplification or for sequencing), e.g. Sequences that allow identification of “barcode” sequences may be included.
- a primer or adapter e.g., for PCR amplification or for sequencing
- target member refers to a nucleic acid molecule that is desired to be separated from a nucleic acid library.
- the target member can be a tumor member, a reference member, or a PGx member as described herein.
- Members actually selected from a nucleic acid library are referred to herein as “library catch”.
- the library-catch comprises the enriched or selected outcome of the library after selection or enrichment of library members, eg, rounds of one or more of the hybrid captures described herein.
- the target member may be a subgroup of the library, ie not all of the library members are selected by use of any particular procedure described herein. In other embodiments, the target member is within the desired target region. For example, the target member can be the percentage of library members that are as low as 10% or as high as 95% to 98% or more. In one embodiment, the library catch is at least about 20%, 30%, 40%, 50%, 60%, 70%, 75%, 80%, 85%, 90%, 95%, 98%, 99%, 99.9 % Or more target members. In another embodiment, the library contains 100% of the target members.
- the purity of the library catch (percentage of reads aligned to target) is at least about 20%, 30%, 40%, 50%, 60%, 70%, 75%, 80%, 85%, 90 %, 95%, 98%, 99%, 99.9% or more.
- the target member (or library catch) obtained from genomic DNA may comprise a small fraction of the total genomic DNA, it is less than about 0.0001%, at least about 0.0001%, at least about 0.001%, at least about 0.01%, or at least about 0.1%.
- Genomic DNA or a more significant fraction of whole genomic DNA which is at least about 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9% or 10% genomic DNA Or 10% or more genomic DNA.
- the target member is selected from a complex mixture of genomes.
- selection of DNA from one cell type eg, cancer cells
- the target member may comprise less than 0.0001%, at least 0.0001%, at least about 0.001%, at least about 0.01% or at least about 0.1% of the total complexity of the nucleic acid sequence present in the complex sample or a more significant fraction. , which comprises at least about 1%, 2%, 5%, 10% or 10% or more of the total complexity of the nucleic acid sequences present in the complex sample.
- the target member (or library catch) selected by the method described herein is all or part of the exon in the genome of the genomic exon, such as about 0.1%, 1%, Includes more than 2%, 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% or 95%.
- the target member (or library catch) is a specific group of exons, e.g., at least about 100, 200, 300, 400, 500, 600, 700, 800, 900 or 1000 specific exons, e.g. , It may be an exon associated with a specific disease such as cancer.
- the target member (or library catch) contains an exon or other portion of a selected gene of interest.
- specific bait sequences allows the practitioner to target a sequence from a group of nucleic acids for a particular selection (ideal set of selected sequences) and a subgroup of nucleic acids containing multiple or few exons (or other sequences) (the actual set of selected sequences). ) To select.
- the target member comprises a set of cDNAs. Capture of cDNA can be used, for example, to find splice variants, and to identify fusion transcripts (eg genomic DNA translocation). In other embodiments, target members (and library catches) are used to detect single base changes and other sequence changes expressed in cells, tissues or organs, such as in the RNA fraction of cells, in tumors.
- Target members may or may not be related if desired.
- the selected target member (and library catch) can be obtained from a group of nucleic acids that are genes involved in a disease, such as a group of genes involved in one or more diseases such as cancer, a group of nucleic acids containing a specific SNP. .
- the bait can be a nucleic acid molecule that can hybridize (eg, complementary), such as a DNA or RNA molecule, thereby allowing the capture of a target nucleic acid.
- the bait is an RNA molecule.
- baits include hybrids formed by baits and binding entities of nucleic acids hybridized to baits, such as the aforementioned binding entities.
- the bait is suitable for solution phase hybridization.
- RNA molecules are used as bait sequences.
- RNA-DNA duplexes are more stable than DNA-DNA duplexes and thus provide potentially better capture of nucleic acids.
- RNA baits are described in other ways herein using methods known in the art, including, but not limited to, de novo chemical synthesis and electrons of DNA molecules using DNA-dependent RNA polymerase. It can be made as described here.
- the bait sequence is generated using known nucleic acid amplification methods such as PCR, for example using human DNA as a template or poor human DNA sample.
- the oligonucleotide can then be converted to an RNA bait.
- in vitro transcription is used, for example, based on the addition of an RNA polymerase promoter sequence to one end of the oligonucleotide.
- the RNA polymerase promoter sequence is each target-specific primer pair by amplifying or re-amplifying the bait sequence, e.g., using PCR or other nucleic acid amplification methods, e.g., with an RNA promoter sequence. It is added to the end of the bait by tailing one primer of.
- the RNA polymerase is a T7 polymerase, an SP6 polymerase, or a T3 polymerase.
- the RNA bait is labeled with a tag, eg, an affinity tag.
- the RNA bait is made by in vitro transcription using, for example, biotinylated UTP.
- the RNA bait is produced without biotin, and then the biotin is crosslinked to the RNA molecule using methods well known in the art, such as psoralen crosslinking.
- the RNA bait is an RNase-resistant RNA molecule, which can be made, for example, by using modified nucleotides during transcription to produce RNA molecules that resist RNase degradation.
- the RNA bait corresponds to only one strand of the double-stranded DNA target. Typically, these RNA baits are not self-complementary and are more effective as hybridization drivers.
- the bait set can be designed from a reference sequence
- the bait is optimal for selecting the target of the reference sequence.
- the bait sequence is designed using mixed bases (eg, degenerate).
- the mixed base(s) are included in the bait sequence at the position(s) of a normal SNP or mutation so that both alleles (e.g., SNP and non-SNP; mutant and non-mutant The bait sequence catching) can be optimized.
- all known sequence modifications (or subsets thereof) can be targeted by multiple oligonucleotide baits rather than using mixed degenerate oligonucleotides.
- the bait set comprises oligonucleotides (or a plurality of oligonucleotides) of about 100 nucleotides to 300 nucleotides in length.
- the bait set comprises oligonucleotides (or a plurality of oligonucleotides) of about 130 nucleotides to 230 nucleotides, or about 150 to 200 nucleotides in length.
- the bait set comprises oligonucleotides (or a plurality of oligonucleotides) of about 300 nucleotides to 1000 nucleotides in length.
- the target member-specific sequence in the oligonucleotide is about 40 to 1000 nucleotides in length, about 70 to 300 nucleotides, about 100 to 200 nucleotides, typically about 120 to 170 nucleotides in length.
- the bait set includes binding entities.
- the binding entity can be an affinity tag on each bait sequence.
- the affinity tag is a biotin molecule or hapten.
- the binding entity separates the bait/member hybrid from the hybridization mixture by binding to a partner such as an avidin molecule or antibody that binds to a hapten or antigen-binding fragment thereof.
- the oligonucleotides in the bait set contain complementary sequences forward and backward to the same target member sequence, whereby an oligonucleotide having a reverse-complemented member-specific sequence is also It carries a universal tail that is posteriorly complementary. This can lead to RNA transcripts that are identical strands, ie that are not complementary to each other.
- the bait set comprises oligonucleotides containing degenerate or mixed bases at one or more positions.
- the bait set includes multiple or substantially all known sequence variants present in a population of a single species or population of organisms. In one embodiment, the bait set includes multiple or substantially all known sequence variants present in the human population.
- the bait set comprises or is derived from a cDNA sequence.
- the bait set comprises amplification products (eg, PCR products) amplified from genomic DNA, cDNA, or cloned DNA.
- the bait set comprises an RNA molecule.
- the set comprises chemically, enzymatically modified or in vitro transcribed RNA molecules including, but not limited to, those that are more stable and resistant to RNase.
- bait is described in US Patent No. 2010/0029498 and Gnirke, A. et al. (2009) Nat Biotechnol. 27(2):182-189].
- biotinylated RNA baits can be generated by obtaining synthetic long oligonucleotides originally synthesized on microarrays and by amplifying the oligonucleotides to generate bait sequences.
- baits are generated by adding an RNA polymerase promoter sequence at one end of the bait sequence and synthesizing the RNA sequence using the RNA polymerase.
- a library of synthetic oligodeoxynucleotides can be obtained from commercial suppliers such as Agilent Technologies, Inc. and amplified using known nucleic acid amplification methods.
- the bait sequence is a base for the SNP in the target gene or gene product or fragment thereof encoding the SNP, e.g., to increase its binding capacity (e.g., affinity and/or specificity).
- binding capacity e.g., affinity and/or specificity.
- Representative genes or gene products include, but are not limited to, BRCA1, BRCA2, MAD2L2, TP53BP1, XRCC5, XRCC6 and SFLN11.
- the bait set selects a target gene or gene product or fragment thereof associated with cancer.
- Representative genes or gene products are, but are not limited to, BRCA1, BRCA2, BARD1, PALB2, RAD51, ATM, ATR, RAD51C, RAD51B, NBN, FANCA, FANCD2, FANCM, FANCI, STK11, MRE11A, RAD50, RAD51D, CHEK2, CDH1, RBBP8, BRIP1, PTEN, BLM, TP53, CDK12, EMSY, FANCF, ERCC1, XRCC1, MAD2L2, TP53BP1, XRCC5, XRCC6 and SFLN11.
- the length of the bait sequence can be between about 70 nucleotides and 1000 nucleotides. In one embodiment, the bait length is about 100 to 300 nucleotides, 110 to 200 nucleotides, or 120 to 170 nucleotides in length. In addition to those mentioned above, about 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220, 230, 240, 250, 300, in length Intermediate oligonucleotide lengths of 400, 500, 600, 700, 800 and 900 nucleotides can be used in the methods described herein. In some embodiments, oligonucleotides of about 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220 or 230 bases may be used.
- Each bait sequence may comprise a target-specific (eg, member-specific) bait sequence and a universal tail on one or both ends.
- the term “bait sequence” may refer to a target-specific bait sequence or an entire oligonucleotide comprising a target-specific “bait sequence” and other nucleotides of an oligonucleotide.
- the target-specific sequence in the bait is between about 40 nucleotides and 1000 nucleotides in length. In one embodiment, the target-specific sequence is between about 70 nucleotides and 300 nucleotides in length. In another embodiment, the target-specific sequence is between about 100 nucleotides and 200 nucleotides in length. In another embodiment, the target-specific sequence is between about 120 nucleotides and 170 nucleotides in length, typically 120 nucleotides in length. In addition to the above mentioned, the intermediate length is also
- the methods described herein such as about 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220, 230, in length It can be used in target-specific sequences of 240, 250, 300, 400, 500, 600, 700, 800 and 900 nucleotides as well as target-specific sequences of lengths between the above-mentioned lengths.
- the bait is about 50 to 200 in length (e.g., about 50, 60, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 190 or 200 in length.
- Nucleotides) of nucleotides include, for example, RNA oligomers, DNA oligomers, or combinations thereof.
- each bait oligomer comprises about 120 to 170 or typically about 120 nucleotides, which is a target specific bait sequence.
- the bait may contain additional non-target specific nucleotide sequences at one or both ends. Additional nucleotide sequences can be used, for example, for PCT amplification or as bait identifiers.
- the bait additionally comprises a binding entity (eg, a capture tag such as a biotin molecule) as described herein.
- a binding entity e.g., a biotin molecule
- the biotin molecule is attached to the 5'-end of the bait.
- the bait sequences described herein can be used for selection of exons and short target sequences.
- the bait is between about 100 nucleotides and 300 nucleotides in length.
- the bait is between about 130 nucleotides and 230 nucleotides in length.
- the bait is between about 150 nucleotides and 200 nucleotides in length.
- the target-specific sequence in the bait for selection of exons and short target sequences is between about 40 nucleotides and 1000 nucleotides in length.
- the target-specific sequence is between about 70 nucleotides and 300 nucleotides in length.
- the target-specific sequence is between about 100 nucleotides and 200 nucleotides in length.
- the target-specific sequence is between about 120 nucleotides and 170 nucleotides in length.
- long oligonucleotides can minimize the number of oligonucleotides required to capture the target sequence.
- one oligonucleotide can be used per exon. It is known in the art that the mean and median lengths of protein-coding exons in the human genome are each about 164-120 base pairs. Longer baits are more specific and can capture better than shorter ones. As a result, the success rate per oligonucleotide bait sequence is higher than that of short oligonucleotides.
- the sequence covered with the smallest bait is the size of one bait (eg, 120-170 bases) for, for example, an exon-sized target.
- the bait sequence is derived from a reference genomic sequence. If the target sequence in the actual DNA sample deviates from the reference sequence, for example, if it contains single-nucleotide polymorphism (SNP), it may hybridize less efficiently to the bait and thus less than it actually is in the sequence hybridized to the bait sequence. It may be marked or completely absent.
- SNP single-nucleotide polymorphism
- Allelic drop-outs due to SNPs are, for example, a single false pair at 120 to 170 bases, 20 or 70 bases, which are typical bait or primer lengths respectively in multiplex amplification and microarray capture. It may be less likely to have a longer synthetic bait molecule because it may have less effect on hybrid stability than a single false pair in.
- the bait sequence length is typically the above, except that it is not necessary to limit the maximum size of the bait sequence for the sole purpose of minimizing targeting of adjacent sequences. It is in the same size range as the bait for the short target mentioned.
- oligonucleotides can be tiled across a much wider window (typically 600 bases). This method can be used to capture DNA fragments that are much larger than typical exons (eg, about 500 bases). As a result, even more unwanted flanking non-target sequences are selected.
- the method featured in the present invention includes contacting a library (eg, a nucleic acid library) with a plurality of baits to provide a selected library catch.
- the contacting step can be accomplished in solution hybridization.
- the method includes repeating the hybridization step by one or more additional rounds of solution hybridization.
- the method further comprises subjecting the library catch to one or more additional rounds of solution hybridization with the same or different collections of baits.
- the method featured in the invention further comprises amplifying the library catch (eg, by PCR). In other embodiments, the library catch is not amplified.
- the method further comprises the step of genotyping the library catch, thereby identifying the genotype of the selected nucleic acid.
- a mixture of thousands of bait sequences can be effectively hybridized from a group of nucleic acids to complementary nucleic acids, and such hybridized nucleic acids (subgroups of nucleic acids) can be effectively separated and recovered.
- the methods described herein comprise a bait sequence greater than about 1,000, a bait sequence greater than about 2,000, a bait sequence greater than about 3,000, a bait sequence greater than about 4,000, a bait sequence greater than about 5,000, a bait sequence greater than about 6,000.
- Bait sequence greater than about 7,000 bait sequence, greater than about 8,000 bait sequence, greater than about 9,000 bait sequence, greater than about 10,000 bait sequence, greater than about 15,000 bait sequence, greater than about 20,000 bait sequence, greater than about 30,000 bait sequence
- a set of bait sequences containing sequences, greater than about 40,000 bait sequences, or greater than about 50,000 bait sequences are used.
- the selection process is repeated on selected subgroups of nucleic acids, eg, to increase the abundance of the selected nucleic acids. For example, after one round of hybridization, thousands of fold enrichment of nucleic acids can be observed. After the second round, the enrichment can be raised to, for example, about 15,000-fold average enrichment, which can provide 100-fold coverage of the target in a single sequencer run. Thus, for experiments requiring an enrichment factor that is not achievable in a single round of hybrid selection, the method is typically a solution with a set of base sequences in an isolated subgroup of nucleic acids (i.e., some or all of the target sequence). Performing one or more additional rounds of hybridization.
- Sequential hybrid selection with two different bait sequences includes the step of enriching the “intersection”, i.e., but not limited to, the intersection point. It can be used to separate and sequence subgroups of DNA sequences bound to bait 1 and bait 2 used for application. For example, selection of DNA from a tumor sample by baits specific to a sequence on chromosome 1 followed by selection from the product of a first selection of sequences that hybridize to a bait specific to chromosome 2 contains sequences from both chromosomes. The sequence can be enriched in chromosome translocation junctions.
- the molar concentration of selected subgroups of nucleic acids can be controlled, the molar concentration of any particular nucleic acid is within a small variation of the average molar concentration of all selected nucleic acids in the subgroup of nucleic acids.
- the method for controlling and optimizing the uniformity of the target expression is not limited to the following, but is not only physicochemical, but also based on the empirical rules of probe design well known in the art, based on the rational design and expectation of the bait sequence. Includes a pool of baits when a known or suspected sequence that is known to be out of reach or is overemphasized as compensating for the original weakness.
- At least about 50%, 60%, 65%, 70%, 75%, 80%, 85%, 90% or 95% of the isolated subgroup of nucleic acids is about 20-fold the average molar concentration, Within 15-fold, 10-fold, 5-fold, 3-fold or 2-fold. In one embodiment, at least about 50% of the isolated subgroups of nucleic acids are within about 3-fold the average molar concentration. In other embodiments, at least about 90% of the isolated subgroups of nucleic acids are within about 10-fold the average molar concentration.
- the change in selection efficiency can be further controlled by changing the concentration of bait.
- the selection efficiency is by adjusting the relative abundance of baits or the density of binding entities (e.g., hapten or affinity tag density) to the differential sequence capture efficiencies observed when using equimolar mixing of baits.
- a group e.g., first, second or third majority baits
- a differential excess as much as in-leveled group 1 for the overall bait mix compared to in-leveled group 2 It is regulated by leveling the efficiency of individual baits at.
- the methods described herein can achieve even coverage of the target sequence.
- the percentage of target base having at least about 50% of the expected coverage is at least about 60%, 70%, 80% or 90% for short targets such as, for example, protein-coding exons.
- the percentage of target bases having at least about 50% of the expected coverage is at least about 80%, 90%, or 95% for long targets compared to the length of the capture bait, e.g., a genomic region. .
- the baits Prior to hybridization, the baits can be denatured according to methods well known in the art.
- the hybridization step comprises adding excess blocking DNA to the labeled bait composition, contacting the blocking bait composition with the detected target sequence under hybridization conditions, and detecting binding of the bait composition to the target.
- hybridization conditions are conditions that allow annealing between the bait and the target nucleic acid. Since the annealing of different baits will differ depending on the probe length, base concentration, etc., annealing is made possible by varying the bait concentration, hybridization temperature, salt concentration and other factors well known in the art.
- Hybridization conditions are made possible by varying the concentration, the base composition, the complex and length of the bait, as well as the salt concentration, temperature and incubation length.
- hybridization can be performed in hybridization buffer containing 5x SSPE, 5x Denhardt's, 5mM EDTA and 0.1% SDS and blocking DNA to inhibit non-specific hybridization.
- the bait is RNA
- an RNase inhibitor can be used.
- hybridization conditions as described above include a temperature of about 25° C. to about 65° C., typically about 65° C., and an incubation length of about 0.5 hours to about 96 hours, typically about 66 hours. Additional representative hybridization conditions are in Examples 12A-12C and Table 14 herein.
- the methods described herein are applicable to standard liquid handling methods and apparatus.
- the method is performed using automated liquid manipulation techniques such as those known in the art, such as devices that manipulate multiwell plates (see, eg, Gnirke, A. et al. (2009). ) Nat Biotechnol. 27(2):182-189).
- automated liquid manipulation techniques such as those known in the art, such as devices that manipulate multiwell plates (see, eg, Gnirke, A. et al. (2009). ) Nat Biotechnol. 27(2):182-189).
- This may include, but is not limited to, a solution hybridization step including automated library construction and setup and washing after solution hybridization.
- the device can be used to perform this automated method for bead-capturing and washing steps after solution hybridization reactions.
- Exemplary devices may include, but are not limited to, the following locations: locations on multi-well plates containing streptavidin-coated magnetic beads, multiwells containing solution hybrid-selection reactions.
- the device is designed with a process from bead-capture step through a catch neutralization step to 96 hybrid selection at the same time.
- more than one location has a dual function.
- the user is facilitated by a protocol exchanging one plate for another.
- each exon-sized sequencing target is captured as a single bait molecule that is approximately the same size as the target and has an endpoint near the endpoint of the target.
- the only hybrids that form double-stranded molecules with approximately 100 or more contiguous base pairs survive the stringent hybridization wash.
- selected subgroups of nucleic acids ie, “catches” are enriched for randomly sheared genomic DNA fragments whose ends are near the ends of the bait molecule. Sequencing only the end of the "catch” with very short sequencing reads provides higher coverage near the end of the target (or even outside) and lower coverage near the middle.
- Concatenation of "catch" molecules by random shearing and shotgun sequencing following ligation is one way to obtain sequence coverage along the entire length of the target sequence. This method produces a higher percentage of sequenced bases on the target (as opposed to nearby targets) than end sequencing with very short reads.
- Methods of linking molecules by co-ligation are well known in the art. Chainization can be performed by simple smooth end ligation.
- the "adhesive" end for efficient ligation is PCR amplification of the "catch" with a PCR primer with a restriction site near its 5'end, followed by digestion by the corresponding restriction enzyme (eg NotI) or T4 DNA
- a strategy similar to that commonly used for ligation-independent cloning of PCR products such as partial "chewback" by polymerase (Aslanidis and deJong, Nucleic Acids Res. 18:6069-6074, 1990) or UDG Glyco It can be produced by a variety of methods including treatment of uracil-containing PCR products with silase and lyase Endo VIII (eg New England Biolabs catalog E5500S).
- a staggered set of bait molecules is used to target a region and frequently obtain bait ends through the target region.
- only the end-sequenced “catch” ie, without concatenation and shear
- the actual sequencing target eg, exon.
- staggering the bait molecule widens the segment covered by the bait, the sequenced base is distributed over a wider area. As a result, the ratio of sequence on a target to a nearby target is lower than for selection by non-redundant baits, which often requires only a single bait per target.
- terminal sequencing with slightly longer reads is a typical method for sequencing short select targets (eg, exons). Unlike end sequencing with very short reads, this method does not lower the median coverage but leads to a single-modal coverage profile. This method is easier to perform than the chain and shear method described above, results in relatively uniform coverage depending on the target, and produces a high percentage of sequenced bases that fall appropriately on the bait and target.
- selected subgroups of nucleic acids are amplified (eg, by PCR) prior to analysis by sequencing or genotyping.
- the subgroups are analyzed without an amplification step, e.g., when the selected subgroup is analyzed by a sensitive analytical method capable of leading a single molecule.
- the invention also includes methods of sequencing nucleic acids.
- nucleic acid library members are separated using the methods described herein, for example using solution hybridization, thereby providing a library catch.
- Library catches or subgroups thereof can be sequenced.
- the method featured in the present invention further comprises the step of analyzing the library catch.
- the library catch is analyzed by a sequencing method, eg, a next generation sequencing method as described herein.
- the method includes separating the library catch by solution hybridization and subjecting the library catch to nucleic acid sequencing.
- the library catch can be resequenced.
- next-generation sequencing includes any sequencing method that determines the nucleotide sequence of either an individual nucleic acid molecule or a cloned proxies for an individual nucleic acid molecule in a highly similar manner (e.g., 105 or more molecules are sequenced simultaneously. do).
- the relative abundance of a nucleic acid species in a library can be estimated by measuring the relative number of occurrences of its cognate sequence in data produced by sequencing experiments.
- Next-generation sequencing methods are known in the art and are described, for example, in Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46, incorporated herein by reference.
- next-generation sequencing is performed to determine the nucleotide sequence of individual nucleic acid molecules (e.g., Helicos BioSciences' HeliScope Gene Sequencing system and Pacific Bioscience's PacBio RS system).
- sequencing e.g., mass-parallel short-lead sequencing (e.g., San Diego, CA) that produces more bases of sequence per sequencing unit than other sequencing methods that produce fewer but longer reads.
- the Illumina Inc. Solexa sequencer determines the nucleotide sequence of the cloned proxies for individual nucleic acid molecules (e.g., Illumina, San Diego, Calif.
- Solexa sequencer Illumina Inc.; 454 Life Sciences (Branford, CT) and Ion Torrent).
- Other methods or machines for next-generation sequencing include, but are not limited to, 454 Life Sciences (Branford, Connecticut), Applied Biosystems (Forster City, Calif.; SOLiD Sequencer), Helicos Bioscience Corporation (Cambridge, Mass.) and emulsion and micro flow sequencing techniques nano-drip (eg, GnuBio drip).
- the platform for next-generation sequencing is, but not limited to, Roche/454's Genome Sequencer (GS) FLX System, Illumina/Solexa Genome Analyzer (GA) , Life/APG's Support Oligonucleotide Ligation Detection (SOLiD) system, Polonator's G.007 system, Helicos BioSciences' HeliScope Gene Sequencing system And Pacific Biosciences' PacBio RS system.
- GS Genome Sequencer
- GA Illumina/Solexa Genome Analyzer
- SOLiD Support Oligonucleotide Ligation Detection
- Polonator's G.007 system Helicos BioSciences' HeliScope Gene Sequencing system And Pacific Biosciences' PacBio RS system.
- NGS technologies may include one or more of, for example, template manufacturing, sequencing and imaging and data analysis steps.
- Methods for template preparation include steps such as randomly destroying nucleic acids (e.g., genomic DNA or cDNA) to small size and making sequencing templates (e.g., fragment templates or mate-pair templates). can do.
- the spatially separated templates can be attached or fixed to a solid surface or support, which allows a large number of sequencing reactions to be carried out simultaneously.
- the types of templates that can be used for the NGS reaction include, for example, templates in which clones derived from single DNA molecules are amplified and single DNA molecule templates.
- the production method of the template from which the clone was amplified includes, for example, emulsion PCR (emPCR) and solid phase amplification.
- emPCR emulsion PCR
- solid phase amplification emulsion PCR
- EmPCR can be used to prepare a template for NGS.
- a library of nucleic acid fragments is created, and adapters containing universal priming sites are ligated to the ends of the fragments.
- the fragments are then denatured into single strands and captured by beads. Each bead captures a single nucleic acid molecule.
- a large amount of template can be attached, immobilized on a polyacrylamide gel on a standard microscope slide (e.g., Polonator), and an amino-coated glass surface (e.g. , Life/APG; is chemically crosslinked to a polonator), or is deposited on an individual picotiter plate (PTP) well (eg, Roche/454), at which time the NGS reaction This can be done.
- PTP picotiter plate
- Solid phase amplification can also be used to generate templates for NGS.
- the front and rear primers are covalently attached to the solid support.
- the surface density of the amplified fragment is defined as the ratio of primer to template on the support.
- Solid phase amplification can produce millions of spatially separated template clusters (eg, Illumina/Solexa). The ends of the template clusters can be hybridized to universal primers for NGS reactions.
- MDA Multiple Displacement Amplification
- Template amplification methods such as PCR can either bind the NGS platform to the target or enrich specific regions of the genome (eg, exons).
- Exemplary template enrichment methods are, for example, micro-drop PCR techniques (Tewhey R. et al., Nature Biotech. 2009, 27:1025-1031), custom-designed oligonucleotide microarrays (e.g., Roche/ NimbleGen oligonucleotide microarray) and solution-based hybridization methods (eg, molecular inversion probe (MIP)) (Porreca GJ et al., Nature Methods, 2007, 4:931-936; Krishnakumar S. et al., Proc. Natl. Acad. Sci.
- MIP molecular inversion probe
- Single-molecule templates are another type of template that can be used for NGS reactions.
- Spatially separated single molecule templates can be immobilized on a solid support by a variety of methods.
- individual primer molecules are covalently attached to a solid support.
- the adapter is added to the template, and the template is then hybridized to the immobilized primer.
- the single-molecule template is covalently attached to the solid support by priming and extending the single-stranded single-molecule template from the immobilized primer.
- the universal primer is then hybridized to the template.
- a single polymerase molecule is attached to a solid support to which a primed template is attached.
- Sequencing and imaging are, but are not limited to, cyclic reversible termination (CRT), sequencing by ligation (SBL), and single-molecule addition (pyrosequencing). pyrosequencing)) and real-time sequencing.
- the CRT uses a reversible terminator in a cyclic method that minimally includes nucleotide inclusion, fluorescence imaging, and cleavage steps.
- the DNA polymerase comprises in the primer a single fluorescently modified nucleotide that is complementary to the complementary nucleotide of the template base.
- DNA synthesis is terminated after the addition of a single nucleotide, and nucleotides not contained are washed away. Imaging is performed to determine the identity of the included labeling nucleotides. Then, in the cleavage step, the terminator/repressor and the fluorescent dye are removed.
- Representative NGS platforms using the CRT method are, but are not limited to, by total internal reflection fluorescence (TIRF).
- SBL uses DNA ligase and either a 1-base-encoded probe or a 2-base-encoded probe for sequencing.
- the fluorescently labeled probe hybridizes to a complementary sequence adjacent to the primed template.
- DNA ligase is used to ligate the dye-labeled probe to the primer.
- fluorescence imaging is performed to determine the identity of the ligated probe.
- Fluorescent dye can be removed using a cleavable probe that regenerates the 5'-PO4 group for subsequent ligation cycles.
- the new primer can be hybridized to the template after the old primer has been removed.
- Exemplary SBL platforms include, but are not limited to, Life/APG/SOLiD (support oligonucleotide ligation detection), which uses a 2-base-encoded probe.
- the pyrosequencing method is based on detecting the activity of DNA polymerase with another chemiluminescent enzyme. Typically, the method sequences a single strand of DNA by synthesizing the complementary strand along one base pair at a time and detecting the base actually added in each step.
- the template DNA is fixed, and solutions of A, C, G and T nucleotides are added sequentially and removed from the reaction. Light is produced only when the nucleotide solution replenishes the unpaired base of the template.
- the sequence of the solution that produces the chemiluminescent signal allows the template to be sequenced.
- Exemplary pyrosequencing platforms include, but are not limited to, Roche/454 using DNA templates prepared by emPCR with one million to two million beads deposited in PTP wells.
- Real-time sequencing involves imaging the continuous inclusion of dye-labeled nucleotides during DNA synthesis.
- Representative real-time sequencing platforms are, but are not limited to, individual zero-mode waveguides (ZMW) for obtaining sequence information when phosphate-linked nucleotides are included in the growing primer strand.
- ZMW zero-mode waveguides
- NGS NGS
- Other sequencing methods of NGS are, but are not limited to, nanopore sequencing, sequencing by hybridization, nano-transistor array-based sequencing, polony sequencing, scanning tunneling microscopy (STM) based Includes sequencing and nanowire-molecular sensor-based sequencing.
- STM scanning tunneling microscopy
- Nanopore sequencing involves electrophoresis of nucleic acid molecules in solution through nano-scale pores that provide a highly enclosed space for analysis in single-nucleic acid polymers. Representative methods of nanopore sequencing are described, for example, in Branton D. et al., Nat Biotechnol. 2008; 26(10):1146-53].
- Sequencing by hybridization is a non-enzymatic method using DNA microarrays.
- a single pool of DNA is fluorescently labeled and hybridized to an array containing known sequences.
- Hybridization signals from a given spot on the array can identify the DNA sequence. Binding of one strand of DNA in a DNA double-strand to its complementary strand is sensitive even to single-base mismatches when the hybrid region is short or when a specific mismatch detection protein is present.
- Representative methods of sequencing by hybridization are described, for example, in Hanna GJ et al., J. Clin. Microbiol. 2000; 38(7): 2715-21; and Edwards JR et al., Mut. Res. 2005; 573(1-2): 3-12).
- Poloni sequencing is based on following sequencing via Poloni amplification and multiple single-base-extension (FISSEQ).
- Poloni amplification is a method of amplifying DNA in situ on a polyacrylamide film. Representative Poloni sequencing methods are described, for example, in US Patent Application Publication No. 2007/0087362.
- Nano-transistor array based devices such as Carbon NanoTube Field Effect Transistor (CNTFET) can also be used for NGS.
- CNTFET Carbon NanoTube Field Effect Transistor
- DNA molecules are stretched and driven across nanotubes by micro-fabricated electrodes. The DNA molecules come into contact with the carbon nanotube surface in sequence, and the difference in current flow from each base is made due to the charge transfer between the DNA molecule and the nanotube. DNA is sequenced by recording these differences.
- a representative nano-transistor array-based sequencing method is described, for example, in US 2006/0246497.
- Scanning electron tunneling microscope can also be used for NGS.
- the STM forms an image of its surface using a piezo-electron-controlled probe that performs a raster scan of the specimen.
- STM can be used, for example, to image the physical properties of a single DNA molecule, making consistent electron tunneling imaging and spectroscopy by integrating an actuator-driven flexible gap and a scanning electron tunneling microscope. Representative sequencing methods using STM are described in, for example, US Patent Application Publication No. 2007/0194225.
- Molecular-analytical devices composed of nanowire-molecular sensors can also be used for NGS. Such devices can detect the interaction of nanowires such as DNA and nitrogenous substances disposed on nucleic acid molecules.
- Molecular guides are arranged to guide molecules near the molecular sensor to allow interaction and subsequent detection. Representative sequencing methods using nanowire-molecular sensors are described, for example, in US 2006/0275779.
- Double-ended sequencing uses blocking and unblocking primers to sequence both the sense and antisense strands of DNA. Typically, these methods comprise the steps of annealing an unblocked primer to the first strand of the nucleic acid; Annealing a second blocking primer to the second strand of the nucleic acid; Extending the nucleic acid along the first strand with a polymerase; Terminating the first sequencing primer; Deblocking the second primer; And extending the nucleic acid along the second strand.
- Representative double-stranded sequencing methods are described, for example, in US Pat. No. 7,244,567.
- NGS reads are made, they are aligned or de novo assembled to a known reference sequence.
- identifying genetic modifications such as single-nucleotide polymorphisms and structural variants in a sample (e.g., a tumor sample) can be done by aligning the NGS reads to a reference sequence (e.g., wild-type sequence).
- a reference sequence e.g., wild-type sequence.
- de novo assemblies are described, for example, in Warren R. et al., Bioinformatics, 2007, 23:500-501; Butler J. et al., Genome Res., 2008, 18:810-820; and Zerbino DR and Birney E., Genome Res., 2008, 18:821-829).
- Sequence alignment or assembly can be performed using read data from one or more NGS platforms, for example by mixing Roche/454 and Illumina/Solexa read data.
- Alignment is the process of matching a read with a location, for example a genomic location.
- Misalignment e.g., the location of base pairs from a short read on an inaccurate location in the genome
- sequence context of the read around the actual cancer mutation e.g., the presence of a repeating sequence
- This can lead to a decrease in the sensitivity of the detection of mutations, as the reads of the alternative alleles can avoid the major pile-up of the reads of the alternative alleles.
- miss-alignment can introduce an artificial read of the “mutated” allele by placing the actual read of the reference genomic base on the wrong location. Because mutation-calling algorithms for multiple polygene analysis must be sensitive even to low-abundance mutations, these misalignments can increase/decrease specificity of false positive detection.
- reducing susceptibility to actual mutations can be addressed by assessing the quality of the alignment (manually or in an automated manner) around the expected mutation site in the gene being analyzed.
- Sites that can be evaluated can be obtained from databases of cancer mutations (eg COSMIC). Regions identified as problematic are slower, but perform better in the appropriate sequence context, using more accurate alignment algorithms, such as Smith-Waterman alignment, for example by alignment optimization (or realignment).
- the custom alignment approach may be, for example, by adjustment of the maximum difference mismatch penalty variable for genes most likely to contain substitutions; By modulating a specific mismatch penalty variable based on the type of specific mutation common in certain tumor types (eg, C ⁇ T in melanoma); Or it can be made by adjusting a specific mismatch penalty variable based on the type of specific mutation that is common in certain sample types (eg, substitutions common in FFPE).
- the reduced specificity (increased false positive rate) within the assessed genetic region due to miss-alignment can be assessed by manual or automated testing of all mutation calls in the sequenced sample.
- the region found to be prone to illogical mutation call due to mis-alignment may be subjected to the same alignment correction as described above. If no possible algorithmic correction is found, the "mutations" from the problem area can be sorted or screened from the test panel.
- Databases of cancer mutations can be used to address these issues and improve performance.
- To improve the sensitivity of indel detection several different approaches are used using information about the expected indels in cancer. For example, short-leads containing the expected indels are stimulated and alignment is attempted. Alignment can be studied, and problematic indel areas are adjusted, for example, by reducing the gap opening/expansion penalty or by aligning partial leads (e.g., the first or second half of the leads). Can have sorted variables.
- the initial alignment can be attempted not only by the normal reference genome, but also by another type of genome each containing known or probable cancer indel mutations.
- reads of indels that are initially unaligned or incorrectly aligned are successfully placed on an alternative (mutated) form of the genome.
- Sequence alignment algorithms as used herein are most likely to be derived from the genome by evaluating the similarity between the lead sequence and the reference sequence in which the lead sequence (e.g., from next-generation sequencing, e.g., short-lead sequence). Includes the computational method or approach used for identity from the case where it exists.
- Various algorithms can be applied to the sequence alignment problem. Some algorithms are relatively slow, but allow for relatively high specificity. These include, for example, dynamic programming-based algorithms. Dynamic programming is a way to solve complex problems by breaking them down into simpler steps. Other approaches are relatively more efficient, but are typically less exhaustive. This includes, for example, heuristic algorithms and probabilistic methods designed for mass database searches.
- sequence alignment includes aligning sequences with sequences provided in the candidate screening step. This can be done using wide-area alignment (eg, Needleman-Wunsch alignment) or local alignment (eg, Smith-Waterman alignment).
- Most attribute sorting algorithms can be characterized by one of three types based on the indexing method: hash tables (e.g. BLAST, ELAND, SOAP), suffix trees (e.g. Bowtie, BWA) and merge sort. Algorithm based on (e.g. Slider). Short read sequences are typically used for alignment. Examples of sequence alignment algorithms/programs for short-lead sequences are, but are not limited to, BFAST (Homer N. et al., PLoS One. 2009;4(11):e7767), BLASTN (on the world wide web). blast.ncbi.nlm.nih.gov), BLAT (Kent WJ Genome Res.
- sequence alignment algorithm can be selected based on a number of factors including, for example, sequencing techniques, read length, number of reads, available computing data and sensitivity/scoring requirements. Different sequence alignment algorithms can achieve different levels of speed, alignment sensitivity and alignment specificity. Alignment specificity refers to the percentage of target sequence residues that are aligned, typically as found in a submission, that are correctly aligned compared to the predicted alignment. Alignment sensitivity also refers to the percentage of target sequence residues that are aligned correctly as found in the usually predicted alignment that are correctly aligned in the submission.
- Alignment algorithms such as ELAND or SOAP, can be used for the purpose of aligning short reads (e.g., from Illumina/Solexa sequencer) with respect to the reference genome when speed is the first factor to be considered.
- Alignment algorithms such as BLAST or Mega-BLAST are relatively slower when specificity is the most important factor, but for the purposes of similarity investigations using short readouts (e.g., from Roche FLX). Can be used.
- Alignment algorithms such as MAQ or Novoalign take the quality score into account, and thus can be used for single- or paired-end data when accuracy is intrinsic (e.g. in fast-bulk SNP searches. ).
- Alignment algorithms such as Bowtie or BWA use the Burrows-Wheeler Transform (BWT) and thus require a relatively small memory footprint. Alignment algorithms such as BFAST, PerM, SHRiMP, SOCS or ZOOM map color space reads, and thus can be used with ABI's SOLiD platform. In some applications, results from two or more sorting algorithms can be combined.
- BWT Burrows-Wheeler Transform
- Alignment variables are used in alignment algorithms to control the performance of the algorithm, for example to generate an optimal global or local algorithm between the lead sequence and the reference sequence.
- Alignment variables can provide weights for matches, mismatches and indels. For example, lower weights allow more mismatches and alignments with indels.
- alignment variables include, but are not limited to, match compensation, mismatch penalty, gap penalty (e.g., gap opening penalty, gap extension penalty), expected threshold, word size, filter or mask.
- gap penalty e.g., gap opening penalty, gap extension penalty
- a gap penalty is designed to reduce the alignment score when the alignment is broken by insertion in the lead or reference sequence.
- a gap penalty can be used to aid in the determination of whether gaps or insertions in the alignment are allowed when it is possible to achieve good alignment of residues to residues at some other neighboring point in the sequence.
- the penalty can be subtracted from the score for the total number of gap spaces (the "gap extension” penalty) multiplied by the cost and the score for each open gap (“gap opening” penalty).
- the cost of the extended gap is set at least about 2, 3, 4, 5, 6, 7, 8, 9 or 10 times lower than the cost for the gap opening.
- the expected threshold is a variable that describes the number of "anticipated" hits that you come across when searching a database of a certain size.
- Sequence context e.g., the presence of repeating sequences (e.g., tandem repeats, interspersed repeats), low complexity regions, indels, pseudogenes or paralogs will affect alignment specificity. May (for example, cause misalignment).
- misalignment refers to the placement of base pairs from short reads on incorrect locations in the genome.
- Sorting algorithms such as a slower but more accurate sorting algorithm (e.g., Smith-Waterman sorting or multi-sequence (lead) sorter CLUSTALW) can be chosen to increase the sorting specificity (e.g. For example, reducing the likelihood of misalignment caused by the presence of a sequence context, e.g., a repeating sequence).
- a slower but more accurate sorting algorithm e.g., Smith-Waterman sorting or multi-sequence (lead) sorter CLUSTALW
- CLUSTALW multi-sequence
- Alignment variables such as match compensation, mismatch penalty, gap penalty (e.g., gap opening penalty, gap extension penalty), expected threshold, word size, filter or mask to increase alignment specificity (e.g., sequence context Can be adjusted (eg, increased or decreased) to reduce the likelihood of misalignment caused by.
- the alignment algorithm is selected or the alignment variable is adjusted based on the tumor type, e.g., the type of tumor that tends to have a specific mutation or mutation type, the sensitivity of the alignment can be increased.
- Alignment algorithms can be selected to modulate (eg, increase) alignment sensitivity when nucleic acids are isolated from samples of a specific tumor type.
- Alignment variables such as match compensation, mismatch penalty, gap penalty (e.g., gap opening penalty, gap extension penalty), expected threshold, word size, filter or mask are aligned when the nucleic acid is isolated from a sample of a specific tumor type. It can be adjusted (eg, increased or decreased) to control (eg, increase) sensitivity. For example, the C ⁇ T substitution is a common type of mutation in melanoma. Thus, the sensitivity of alignment can be adjusted (eg, can be increased) when the mismatch penalty of nucleic acid sequences from melanoma samples is reduced or increased.
- the sensitivity of alignment can be increased when an alignment algorithm is selected or when alignment variables are regulated based on a specific gene type (eg, oncogene, tumor suppressor gene).
- a specific gene type eg, oncogene, tumor suppressor gene.
- Mutations in different types of cancer-related genes can have different impacts in the cancer phenotype. For example, mutant oncogene alleles are typically dominant.
- Mutant tumor suppressor gene alleles are typically recessive, meaning that in most cases both alleles of the tumor suppressor gene must be affected before effects become apparent.
- Alignment algorithms can be selected to modulate (eg, increase) alignment sensitivity based on gene type (eg, oncogene, tumor suppressor gene).
- gene type eg, oncogene, tumor suppressor gene
- Alignment variables such as match reward, mismatch penalty, gap penalty (e.g., gap opening penalty, gap extension penalty), expected threshold, word size, filter or mask can be determined by the tumor type (e.g., oncogene, tumor suppressor). Genes) to control (eg, increase) alignment sensitivity/specificity (eg, increase or decrease). For example, in-frame indels are usually associated with tumor suppressors. Thus, the sensitivity and specificity of the alignment can be modified so that the standard gap penalty approach (e.g., gap open + gap extension) is preferred in in-frame indels for oncogenes and in frame-shifted indels for tumor suppressor genes. When can be adjusted (for example, can be increased).
- gap penalty e.g., gap opening penalty, gap extension penalty
- expected threshold word size, filter or mask
- filter or mask can be determined by the tumor type (e.g., oncogene, tumor suppressor).
- Genes) to control eg, increase
- alignment sensitivity/specificity eg
- the sensitivity of the alignment is regulated when the alignment algorithm is selected or when the alignment variable is adjusted based on the type of mutation (e.g., single-nucleotide polymorphism, indel (insertion or deletion), inversion, translocation, termination repeat). Can be (for example, can be increased).
- type of mutation e.g., single-nucleotide polymorphism, indel (insertion or deletion), inversion, translocation, termination repeat.
- Can be for example, can be increased).
- Alignment algorithms such as BWA (attribute single short-lead), Smith-Waterman (shorter, more accurate single short-lead), and CLUSTALW (much shorter, but consider multiple reads) are mutant types.
- BWA attribute single short-lead
- Smith-Waterman Smith-Waterman
- CLUSTALW CLUSTALW
- control e.g., increase
- Alignment variables such as match compensation, mismatch penalty, gap penalty (e.g., gap opening penalty, gap extension penalty), expected threshold, word size, filter or mask, are dependent on the type of mutation (e.g., single-nucleotide polymorphism, intercalation).
- point mutations are usually associated with the KRAS gene.
- the sensitivity of alignment can be increased when the mismatch penalty for that location is reduced.
- deletions are usually associated with the EGFR gene.
- the sensitivity of alignment can be increased when the gap penalty (eg, gap opening penalty, gap extension penalty) for that location(s) or gene is reduced. If a partial sequence (eg, the first or second half of the read) is used for alignment, the sensitivity of the alignment can also be increased.
- the gap penalty eg, gap opening penalty, gap extension penalty
- Mutation hotspot refers to a site in the genome where mutations occur up to 100 times more frequently than the normal mutation rate.
- the alignment algorithm can be selected to control (eg, increase) alignment sensitivity based on the mutation site (eg, mutation hotspot).
- Alignment variables such as match compensation, mismatch penalty, gap penalty (e.g., gap opening penalty, gap extension penalty), expected threshold, word size, filter or mask are based on the mutation site (e.g., mutation hotspot). It can be adjusted (eg, increased or decreased) to control (eg, increase) the alignment sensitivity. For example, the mutation at codon 12 is usually associated with the KRAS gene. Thus, the sensitivity of alignment can be increased when the mismatch penalty for the site is reduced.
- the sensitivity/specificity of the alignment can be adjusted (eg, can be increased).
- the alignment algorithm can be selected to adjust (eg, increase) the alignment sensitivity/specificity based on the sample type (eg, FFPE sample).
- Alignment variables such as match compensation, mismatch penalty, gap penalty (e.g., gap opening penalty, gap extension penalty), expected threshold, word size, filter or mask are based on sample type (e.g., FFPE sample). It can be adjusted (eg, increased or decreased) to control (eg, increase) alignment sensitivity/specificity. For example, transitional mutations due to DNA damage are usually associated with FFPE samples. Thus, the sensitivity/specificity of the alignment can be reduced when the mismatch penalty for sequences obtained from FFPE samples is increased.
- Base calling refers to the raw product of a sequencing device.
- Mutation calling refers to the process of selecting a nucleotide value, e.g., A, G, T or C, for the nucleotide position being sequenced.
- a sequencing read (or base call) for a position will give more than one value, for example some reads will give T and some will give G.
- Mutation calling is the process of assigning a nucleotide value, e.g., one of those values for a sequence.
- Methods for mutation calling may include one or more of the following: making independent calls based on information at each position in the reference sequence (e.g., testing sequence reads; testing base calling and quality scores.
- a genotype eg, using the Bayes rule
- Removing false positives eg, a deep threshold to reject SNPs by readings that are much lower or much higher than expected; using local rearrangements to eliminate false positives due to small indels
- LD linkage disequilibrium
- Formulas for calculating genotyping likelihood associated with specific genotypes and locations are described, for example, in Li H. and Durbin R. Bioinformatics, 2010; 26(5): 589-95]. Predictions for a specific mutation in a specific cancer type can be used when evaluating samples from that cancer type. These possibilities include public databases of cancer mutations, such as the Catalog of Somatic Mutation in Cancer (COSMIC), HGMD (Human Gene Mutation Database), The SNP Consortium. , Breast Cancer Mutation Data Base (BIC) and Breast Cancer Gene Database (BCGD).
- COSMIC Catalog of Somatic Mutation in Cancer
- HGMD Human Gene Mutation Database
- BIC Breast Cancer Mutation Data Base
- BCGD Breast Cancer Gene Database
- Examples of LD/displacement based analyzes are described, for example, in Browning B.L. and Yu Z. Am. J. Hum. Genet. 2009, 85(6):847-61].
- Examples of low-coverage SNP calling methods are described, for example, in Li Y. et al., Annu. Rev. Genomics Hum. Genet. 2009, 10:387-406.
- detection of substitutions can be performed using a calling method, for example Bayesian mutation calling method; This applies to each base in each of the subgenomic intervals, e.g., exons of the gene being evaluated, if the presence of an alternative allele is observed.
- This method will compare the probability of observing the read data in the presence of the mutation with the probability of observing the read data in the presence of the base-calling error alone. Mutations can be invoked if this comparison strongly supports the presence of mutations.
- the method was developed to handle limited deviations from frequencies of 50% or 100% for analysis of cancer DNA. (E.g., SNVMix-Bioinformatics. 2010 March 15; 26(6): 730-736.)
- the methods disclosed herein are mutant anywhere from 1% to 100% of the sample DNA and especially at a level of less than 50%. Allows you to consider the possibility of the existence of the allele. This approach is particularly important for the detection of mutations in low-purity FFPE samples of native (multi-clonal) tumor DNA.
- An advantage of the Bayesian mutation-detection approach is that the comparison of the probability of the presence of a mutation and the probability of a base-calling error alone can be weighted by a prior estimate of the presence of a mutation at the site. If some readings of an alternative allele are observed at sites that are frequently mutated for a given cancer type, the presence of the mutation can be confidently invoked even if the amount of mutation evidence does not meet the usual threshold. This flexibility can then be used to increase detection sensitivity for even rarer mutations/lower purity samples or to make the test more robust against a decrease in read coverage.
- the likelihood of random base pairs in the mutated genome in cancer is ⁇ 1e-6.
- the likelihood of specific mutations at multiple sites in a typical mutagenesis cancer genome panel may be tenfold or more. These possibilities can be derived from public databases of cancer mutations (eg COSMIC).
- Indel call is the process of finding a base in sequencing data that differs from the reference sequence by insertion or deletion, typically including an associated confidence score or statistical evidence measure.
- the indel call method may include identifying candidate indels, calculating genotyping probability through local rearrangement, and performing LD-based genotyping inference and calling.
- the Bayesian approach is used to obtain potential indel candidates, and then these candidates are tested with a reference sequence in the Bayesian framework.
- errors can be introduced into the readout in different process strategies, for example by sequencing chemistry or by image analysis software.
- Replica reads are typically sequenced as separate reads.
- the mutation calling algorithm needs to accurately call the latter by distinguishing between sequencing errors and actual sequence modifications.
- the methods described herein can analyze replicated reads to reduce sequencing errors, thereby improving the sensitivity of mutation calling algorithms.
- replicas are read to reduce sequencing errors, thereby improving the sensitivity of the mutation calling algorithms described herein.
- Replica reads can be confirmed by possession of the same starting and ending positions. Since a copy read essentially duplicates the read of the same original DNA molecule, any difference between the clones must be a sequencing error and can therefore be neglected. For example, if high-level copy data is available, three or more copies in common can be used. Alternatively, the quality score of the base can be re-established to reflect the agreement between two or more copies of the read, and can be used by any sub-process. For example, a mutation calling algorithm may place less weight on sequence differences that are not supported by all copies.
- the presented method was tested on some sequencing data by creating a consensus sequence for the replicates. It was found that the error rate of the common reading sequence was significantly lower than that of the original reading.
- This method can be used, for example, when 1) some failure mode of the sequencer results in usable sequence data with a higher error rate, which negatively affects the ability to call mutations in this data. Reducing errors by using replicas should be particularly effective in the scenario, making the mutation call pathway stronger for mechanical failure, and 2) particularly rare in the sample (e.g., tumor cells in the blood are ⁇ 1% of the cells in the sample). When sequencing DNA from cancer cells, any improvement in the base error rate can significantly increase the ability to accurately identify mutations in these tumor cells.
- a dataset with a high replication rate (69%) was scanned for replicates.
- the error rate obtained was 0.40%.
- all reads with at least 3 replicates were processed individually, and the consensus sequence for each set of replicates was derived by selecting the most common replicate sequence.
- the error rate of the consensus sequence was 0.20%, demonstrating that a lower error rate can be achieved for replicate reads by comparing its sequences.
- duplicate readings are not identified or removed. Not removing the copy reads can be particularly useful in determining the number of copies in tumor DNA and in the evaluation of allele-balance when the fraction of the copy reads is significantly different between the control and experimental samples. For example, genomic regions with a high coverage depth in a sample with a high-replication rate may lose more reads than an identical region with a similar depth in a sample with a low redundancy rate.
- Sequence analysis of a DNA test sample eg, a DNA sample extracted from a tumor
- a control sample eg, a DNA sample from a non-cancerous tissue and a test group sample.
- a duplicate read will be made. Read copies are made during various stages of library preparation (eg, PCR amplification) and sequenced as separate reads. Since they are not independent reads (i.e. they are derived from the same original DNA molecule), only one of any number of copies is typically used in the mutation detection process, while the others are discarded. Typically, duplicate reads from both the control and test samples are removed prior to performing a similar analysis between the test and control DNA sequences.
- replicate reads in the case where the fraction of replicate reads differ significantly between test and control samples (e.g., differ by at least 20%, 30%, 40%, 50%, 60% or more), replicate reads It is preferred that silver is not removed prior to similar analysis to maximize the ability to accurately identify mutations in the test sample. For example, in the case where the number of replicate readings in the control sample and the test sample is 20% and 80% (or 70% or 60% or 50%), respectively, the replicate readings are preferably not removed prior to similar analysis.
- the isolated tumor or control, characterization of the nucleic acid is used to change substeps or variables in one or more or all of the following: isolation of the nucleic acid from the sample; Library configuration; Bait design or selection; Hybridization conditions; Sequencing; Read mapping; Choice of method for calling mutations; Mutation call or mutation annotation.
- the features of the library are used to change substeps or variables in one or more or all of the following: releasment of nucleic acids from the sample; Subsequent library construction; Bait design or selection; Hybridization conditions; Sequencing; Read mapping; Choice of method for calling mutations; Mutation call or mutation annotation.
- the feature of the library-catch is used to change substeps or variables in one or more or all of the following: releasment of nucleic acids from the sample; Subsequent library construction; Bait design or selection; Hybridization conditions; Sequencing; Read mapping; Choice of method for calling mutations; Mutation call or mutation annotation.
- features of the sequencing method are used to change substeps or variables in one or more or all of the following: releasment of nucleic acids from the sample; Subsequent library construction; Bait design or selection; Hybridization conditions; Sequencing; Read mapping; Choice of method for calling mutations; Mutation call or mutation annotation.
- features of the collection of mapped reads are used to change substeps or variables in one or more or all of the following: releasment of nucleic acids from the sample; Subsequent library construction; Bait design or selection; Subsequent determination of hybridization conditions for subsequent sequencing; Subsequent read mapping; Choice of method for calling mutations; Mutation call or mutation annotation.
- the method comprises obtaining a value for a tumor sample characteristic, eg, relative to the proportion of tumor cells in the sample, relative to the cytoplasm of the tumor sample; Or obtaining a value from the image of the tumor sample.
- a tumor sample characteristic eg, relative to the proportion of tumor cells in the sample, relative to the cytoplasm of the tumor sample.
- the method comprises isolation of nucleic acids from tumor samples, library construction, in response to the obtained values for tumor sample characteristics; Bait design or selection; Bait/library member hybridization; Sequencing; Or selecting a variable for the mutation call.
- the method comprises obtaining a value for the amount of tumor tissue present in the tumor sample, comparing the obtained value to a reference criterion, and if the reference criterion is met, accepting the tumor sample. Further comprising accepting the tumor sample, for example if the tumor sample contains more than 30, 40 or 50% tumor cells.
- the method further comprises obtaining an enriched sub-sample by macrodissecting the tumor tissue from the tumor sample for tumor cells from a tumor sample that does not meet a reference criterion.
- the method further comprises determining whether a primary control, e.g., a blood sample, is available, thus separating a control nucleic acid (e.g., DNA) from the primary control.
- a primary control e.g., a blood sample
- the method further comprises isolating the nucleic acid from the tumor sample to provide an isolated tumor nucleic acid sample.
- the method further comprises isolating the nucleic acid from the control to provide an isolated control nucleic acid sample.
- the method further comprises rejecting the sample without detectable nucleic acid.
- the (a) step is (ai) using a salting-out method, a column chromatography method, or a beads method in the collected sample. , And other residues are removed and purified nucleic acid is obtained;
- sequence information reads, reads, reads
- (a-viii) It may be characterized in that it is performed by a method comprising the step of deriving mutation information from the selected sequence information.
- the step a-vi) comprises the steps of: (i) specifying a region of each aligned nucleic acid sequence;
- (ii) It may be characterized in that it is performed by a method comprising the step of selecting a sequence that satisfies a reference value of a mapping quality score and a GC ratio within the region.
- the reference value may be characterized in that the mapping quality score is 15 to 70, and the GC ratio is 30 to 60%.
- the polynucleotide may be characterized in that it is a probe or a primer.
- the kit may be characterized in that it contains various buffers, washing solutions, and labeling substances as necessary.
- VAF Varaint allele frequency
- CNA copy number alteration
- BGI the tumor fraction information of the tumor tissue used in the analysis and the adjusted allele frequency of PARP inhibitor-sensitive genes (Adj. AF, ) Is required.
- BGI was analyzed using mutation information and tumor fraction information of 56 solid cancer patients without mutations in all genes (MAD2L2, TP53BP1, XRCC5, XRCC6 and SFLN11) of the PARP inhibitor resistance gene group.
- DNA was extracted from FFPE samples of 56 solid cancer patients with tumor fraction information using the GeneRead DNA FFPE Kit (Qiagene). Specifically, after dissolving the FFPE sample at 56 °C using a deparaffinization solution, the transparent layer at the bottom was separated. The separated solution was purified by centrifugation to extract nucleic acids.
- the extracted nucleic acid was subjected to library preparation using the SOLIDaccuTest Library DNA Prep Kit (NGeneBio) for samples satisfying the total amount of 400 ng or more, and sequencing was performed using MiSeq-Dx equipment (Illumina). As a result, it was confirmed that 200Mb or more of data per sample was produced.
- Standard Tumor Fraction is calculated using Equation 2 using the mutation information and tumor fraction information obtained in 3-1.
- the calculated Standard Tumor Fraction is Adj.
- BGI is judged by comparison with AF.
- the Standard Tumor Fraction is calculated as 67%, and the subject's Adj. If AF is 73%, Adj. Since the AF value was larger than the standard tumor fraction, it was judged as BGI positive.
- BGI was found in 19 out of 56 (33.9%).
- the method according to the present invention not only detects mutations in both alleles of the biomarker that determine the sensitivity of the PARP inhibitor, but also can select samples in which the PARP inhibitor works with high sensitivity and accuracy, as well as the conventional BRCA1/ 2 Compared to the method of detecting only mutations in genes, it is useful because it further analyzes genes related to homologous recombination deficiency, so it is possible to determine the sensitivity of PARP inhibitors to samples over a wider range.
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Medical Informatics (AREA)
- Analytical Chemistry (AREA)
- Theoretical Computer Science (AREA)
- Molecular Biology (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Genetics & Genomics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Pathology (AREA)
- Microbiology (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Oncology (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Hospice & Palliative Care (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
본 발명은 PARP(Poly ADP Ribose Polymerase) 저해제에 대한 감수성 결정방법에 관한 것으로, 더욱 자세하게는 PAPR 저해제 저항성 유전자 그룹 및 PARP 저해제 민감성 유전자 그룹의 유전자형을 분석함으로써 신속하고 민감하며, 높은 정확도로 PARP 저해제애 대한 감수성을 결정하는 방법 및 이를 이용한 키트에 관한 것이다. 본 발명에 따른 방법은 PARP 저해제 감수성을 결정하는 바이오마커의 대립 유전자 양쪽(both allele)의 변이를 검출하여 높은 민감도와 정확도로 PARP 저해제가 작동하는 시료를 선별할 수 있을 뿐만 아니라, 기존의 BRCA1/2 유전자의 변이만 검출하는 방법에 비하여 상동재조합결핍 관련 유전자를 추가로 분석하므로 더 넓은 범위에 시료에 대하여 PARP 저해제 감수성을 결정할 수 있어 유용하다.
Description
본 발명은 PARP(Poly ADP Ribose Polymerase) 저해제에 대한 반응성 결정방법에 관한 것으로, 더욱 자세하게는 PAPR 저해제 저항성 유전자 그룹 및 PARP 저해제 민감성 유전자 그룹의 유전자형을 분석함으로써 신속하고 민감하며, 높은 정확도로 PARP 저해제애 대한 반응성을 결정하는 방법 및 이를 이용한 키트에 관한 것이다.
바이오마커란 ‘정상적인 생물학적 과정, 질병 진행 상황, 그리고 치료방법에 대한 약물의 반응성을 객관적으로 측정하고 평가할 수 있는 지표’라고 정의하고 있다. 최근 유전자 분석기술의 발달로 특정 유전자의 변이와 특정 질병 사이의 관련성에 대한 연구가 증가하면서 바이오마커는 유전자와 유전적 변이, 그로 인한 RNA, 단백질, 대사물질 발현의 차이를 모두 아우르는 분자적, 생물학적 지표로 재(再)정의되고 있다.
또한, 좀 더 효과적인 치료를 위해 의약품의 치료효과를 극대화 시키거나 부작용을 최소화 할 수 있는 환자군을 분류하고자 바이오마커의 감수성 여부를 판단할 수 있는 동반진단제(Companion Dignostics Device, CDx)의 개발이 이루어지고 있다.
동반진단(Companion Diagnosis)은 환자의 특정 약물 치료에 대한 반응성을 미리 예측하기 위한 진단 기법이다. 암세포와 정상세포에 대해 모두 작용하여 부작용이 큰 기존 대부분의 항암제의 단점을 극복하기 위해 특정 표적 단백질을 선택적으로 공격하도록 하는 표적 항암제가 개발되었다.
그러나 표적 항암제는 같은 종류의 암이라도 특정 표적 단백질을 가지는 암환자에게만 효과를 보이기 때문에 표적 분자를 가진 환자를 선별하지 않으면 치료 효율이 매우 낮다.
또한, 표적 항암제는 세포 사멸보다 세포 성장과 증식 억제에 의존하기 때문에 장기간에 걸쳐 지속적인 약물 투여로 인한 내성 발생 가능성이 높다. 따라서, 약물을 투여하기 전에 항암제의 표적에 대하여 분석하여 약물에 효과를 보이는 환자군을 선별하는 것이 필요하다.
다국적 제약사 중 하나인 Roche는 최초의 유방암 표적 항암제인 "Herceptin"과 이에 대한 동반진단키트인 "Herceptest"를 개발한 Genentech를 인수하여 동반진단 기반의 표적 항암제 치료를 시작하게 되었다. 동반진단키트는 DAKO, HercepTest와 같은 면역조직화학검사를 통해 특정 단백질의 과발현을 확인하는 방법, Ventana Medical Systems, INFORM HER-2/NEU와 같은 특정 유전자의 유전자 증폭을 DNA 프로브를 이용한 FISH 또는 CISH 검사를 통해 확인하는 방법, 그리고 Roche Diagnostics, cobas EGFR mutation test 와 같은 q-PCR 등 유전체학적 기법을 이용하여 바이오 마커 유전자의 돌연변이 여부를 검사하여 확인하는 방법 등이 있다.
일반적으로 항암 요법에서, 항암제를 투여하였을 때의 생체의 반응성은 약제의 표적이 되는 암세포의 이 약제에 대한 감수성에 크게 의존한다. 이러한 암세포의 약제에 대한 감수성은, 암세포마다 크게 상이하다. 이러한 감수성의 차이는, 이 약제의 표적 분자 또는 이에 관련하는 인자의 양적 또는 질적 차이, 또는 약제 내성의 획득 등에 기인한다. 이러한 배경을 근거로, 표적이 되는 암세포가 약제에 대하여 감수성을 나타낼 경우에 특이적으로 나타나는 암세포의 유전적 변화를 확인할 수 있다면, 조기에 약제의 효과 판정, 치료법의 확립, 새로운 치료법의 선택 등이 가능해져 대단히 유익하다. 또한, 치료에 앞서 생체 조직편 등에 의해 취득된 암 조직에서, 통상의 방법에 따라 암세포를 분리한 후 약제 처리를 실시하여, 이 암세포가 약제 감수성인지 여부를 상기 변화에 의해 측정하면, 이 약제에 의한 치료가 유효한지 여부를 미리 예측할 수 있기 때문에 임상적으로 매우 유용하다.
최근 주목 받고 있는 암치료를 위한 신규한 접근법은 합성 치사(synthetic lethality)에 관한 것으로, 합성 치사란 두 개의 유전자(또는 두 유전자 산물들) 중 하나에만 돌연변이가 있는 경우 세포가 생존할 수 있지만, 두 개의 유전자 모두에 돌연변이가 있는 경우에는 세포가 죽음에 이르게 되는 것을 의미한다. 이와 같은 2 종 이상의 돌연변이의 유전적 상호작용으로 사멸을 유도하는 예로는 BRCA1/2와 올라파립을 들 수 있다. 다시 말해, 합성치사는 돌연변이 및 약물이 함께 작용하여 암세포를 사멸시키는 것으로, 암-관련 돌연변이에 의해 합성 치사되는 유전자(또는 유전자 산물)를 타겟팅하면, 암세포만을 사멸시키고 정상적인 세포는 살아남게 된다. 따라서, 합성 치사는 항암 제제의 개발을 위한 프레임워크를 제공한다. 그러나, 합성 치사 유전자들(및 유전자 산물들)의 확인 부재 등으로 인하여 이에 대한 연구는 거의 없는 실정이다.
Two hit theory 란, 종양 형성을 위해서 동일한 유전자 내에 이중가닥에 각각 돌연변이가 필수적으로 일어나야 한다는 이론으로, DNA의 두 가닥 중 하나의 가닥이 germline 변이를 가질 때, 다른 가닥은 somatic 변이를 가져야 종양이 유도되며, germline 변이가 없는 경우에는 두 가닥 모두 somatic 변이를 가지고 있어야 종양이 유도된다는 가설이다.
따라서, 유전자의 돌연변이를 분석할 때, germline 돌연변이와 somatic 돌연변이를 구분하는 것이 중요하나, 현재 한번의 분석으로 두 돌연변이를 구분하는 방법은 없는 실정이다.
한편, 올라파립(Olaparib, AZD2281)은 암세포의 비정상적인 증식을 억제하는 기능을 가진 항암제로, "PARP 단백질"의 저해제이다. PARP는 세포 내 DNA가 손상 받은 경우, 이를 복구(repair)하는 기능을 하는 단백질로, 세포가 DNA의 수리를 마치고, 지속적으로 증식을 할 수 있도록 기여하는데 큰 역할을 수행한다. 올라파립은 이 PARP의 기능을 저해함으로써, 암세포의 증식을 저해한다. 이러한 올라파립은 난소암, 유방암의 표적치료제로 잘 알려져 있으며, 특히 BRCA1, BRCA2의 돌연변이를 유전적으로 가지고 있는 암 환자들에게 효과적인 항암제로 알려져 있다.
즉, 항암제의 효과는 DNA 복구(repair) 능력에 영향을 많이 받으며, 또한, 항암제는 내성과 독성에 관해서 개인차가 상이하므로, 적합한 치료반응성 표식자를 이용한 선별은 항암제 치료의 획기적인 진보를 초래할 수 있다. 특정 유전자에 따른 개별 항암제의 치료반응성에 관한 연구가 최근 지속적으로 활발하게 전개되고 있다. 그러나 특정약제에 대한 생체반응 관련요소의 복합적 작용, 치료제 및 투여방식의 다양성과 방대한 시료확보의 어려움으로 아직 괄목할 만한 성과가 미약한 현실이다.
Myriad genetics 社에서는 PARP 저해제(올라파립(olaparib), 탈라조파립(talazopari)b 및 루카파립(rucaparib))의 동반진단을 위해 germline BRCA1 및 BRCA2의 변이유무를 진단하는 제품을 출시하였다. 그러나 이 제품은 BRCA1/2 유전자의 대립 유전자와 상관 없이 변이 존재의 유무만을 결정하는 제품이고, PARP 저해제에 대한 전체 반응율(ORR, overall response rat)가 34%밖에 되지 않아, 단순 BRCA1/2의 germline mutation 검출만으로는 PARP 저해제에 대한 동반진단이 충분히 이루어 질 수 없음을 의미한다.
Foundation medicine 社의 FoundationFocusCDxBRCA 제품 역시 BRCA1 및 BRCA2의 변이와 PARP 저해제인 루카파립(rucaparib)의 연관성을 진단하는 동반진단 제품이지만, 전체 반응율(ORR, overall response rate)가 53.8%밖에 되지 않는 실정이다.
이에 본 발명자들은 민감도와 정확성이 높은 PARP 저해제에 대한 반응성 결정방법을 개발하기 위하여 예의 노력한 결과, PARP 저해제 저항성 유전자 그룹 및 PARP 저해제 민감성 유전자 그룹의 유전자형을 확인한 다음, 대립 유전자 양쪽(both alleles)의 변이 유무를 확인할 경우, PARP 저해제에 대한 반응성을 높은 민감도와 정확도로 결정할 수 있음을 확인하고, 본 발명을 완성하였다.
발명의 요약
본 발명의 목적은 PARP 저해제에 대한 반응성 결정방법을 제공하는 것이다.
본 발명의 다른 목적은 PARP 저해제에 대한 반응성 예측용 조성물을 제공하는 것이다.
본 발명의 또 다른 목적은 상기 조성물을 포함하는 PARP 저해제에 대한 반응성 예측용 키트를 제공하는 것이다.
상기 목적을 달성하기 위해서, 본 발명은 (a) 환자 유래 핵산 분자를 분석하여 PARP 저해제 저항성 유전자 그룹 및 PARP 저해제 민감성 유전자 그룹의 유전자형(genotype)을 확인하는 단계; 및 (b) PARP 저해제 저항성 유전자 그룹의 모든 유전자에 변이가 없고, PARP 저해제 민감성 유전자 그룹 중 하나 이상의 유전자의 대립 유전자 양쪽(both allele)에서 모두 변이를 나타낼 경우, PARP 저해제에 대한 감수성이 있는 것으로 결정하는 단계 포함하는 PARP(Poly ADP Ribose Polymerase) 저해제에 대한 감수성(susceptibility) 결정 방법을 제공한다.
본 발명은 또한, (a) MAD2L2, TP53BP1, XRCC5, XRCC6 및 SFLN11로 구성된 군에서 선택되는 하나 이상의 유전자에 상보적인 서열을 함유하는 폴리뉴클레오타이드; 및 (b) BRCA1, BRCA2, BARD1, PALB2, RAD51, ATM, ATR, RAD51C, RAD51B, NBN, FANCA, FANCD2, FANCM, FANCI, STK11, MRE11A, RAD50, RAD51D, CHEK2, CDH1, RBBP8, BRIP1, PTEN, BLM, TP53, CDK12, EMSY, FANCF, ERCC1 및 XRCC1로 구성된 군에서 선택되는 하나 이상의 유전자에 상보적인 서열을 함유하는 폴리뉴클레오타이드; 를 포함하는 PARP 저해제에 대한 감수성 예측용 조성물을 제공한다.
본 발명은 또한, 상기 조성물을 포함하는 PARP 저해제에 대한 감수성 예측용 키트를 제공한다.
도 1은 본 발명의 일 실시예에 따라 계산한 GA 값을 유전자 별로 분류한 결과 그래프이다.
도 2는 본 발명의 일 실시예에 따라 서정한 18개 유전자에서 GA 빈도수를 확인한 결과이다.
도 3은 본 발명의 일 실시예에 따라 40세 전후의 GA 분포를 확인한 결과이다.
발명의 상세한 설명 및 바람직한 구현예
개요
A. 용어 정의
B. PAPR 저해제
1. PARP 저해제의 작동 기작
2. PARP 저해제의 종류
C. PARP 저해제 동반진단을 위한 유전자 그룹
1. PARP 저해제 저항성 유전자 그룹
2. PAPR 저해제 민감성 유전자 그룹
D. 상동재조합결핍(HRD) 판단 기준 및 예시
E. 핵산 분석 방법
1. PCR/Probe 기반 분석 방법
2. NGS 기반 분석 방법
a. 타겟 풍부화(Target Enrichment)
b. 서열분석(sequencing by synthesis)
d. 서열 정렬(alignment)
e. 변이 호출(variant calling)
F. 실시예
다른 식으로 정의되지 않는 한, 본 명세서에서 사용된 모든 기술적 및 과학적 용어들은 본 발명이 속하는 기술 분야에서 숙련된 전문가에 의해서 통상적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 본 명세서에서 사용된 명명법은 본 기술 분야에서 잘 알려져 있고 통상적으로 사용되는 것이다.
A. 용어 정의
본 발명에서 용어 "뉴클레오시드" 또는 “뉴클레오사이드”는 핵산 염기(핵염기)가 당 모이어티에 연결된 글리코실아민 화합물을 의미한다. "뉴클레오티드"는 뉴클레오시드 포스페이트를 의미한다. 뉴클레오티드는 표 1에 기재된 것과 같이, 그의 뉴클레오시드에 상응하는 알파벳 문자(문자 명칭)를 사용하여 표시될 수 있다. 예컨대, A는 아데노신(아데닌 핵염기를 함유하는 뉴클레오시드)을 지칭하고, C는 시티딘을 지칭하고, G는 구아노신을 지칭하고, U는 우리딘을 지칭하고, T는 티미딘(5-메틸 우리딘)을 지칭한다. W는 A 또는 T/U를 지칭하고, S는 G 또는 C를 지칭한다. N은 랜덤한 뉴클레오시드를 표시하고, dNTP는 데옥시리보뉴클레오시드 트리포스페이트를 의미한다. N은 A, C, G, 또는 T/U 중 어떤 것도 될 수 있다.
본 발명에서 용어 "올리고뉴클레오티드" 또는 “올리고뉴클레오타이드”는 뉴클레오티드의 올리고머를 의미한다. 본원에 사용된 용어 "핵산"은 뉴클레오티드의 중합체를 의미한다. 본원에 사용된 용어 "서열"은 올리고뉴클레오티드 또는 핵산의 뉴클레오티드 서열을 의미한다. 명세서를 통틀어, 올리고뉴클레오티드 또는 핵산이 문자의 서열에 의해 표시될 때마다, 뉴클레오티드는 좌에서 우로 5'→3' 순서이다. 올리고뉴클레오티드 또는 핵산은 DNA, RNA, 또는 그의 유사체(예컨대, 포스포로티오에이트 유사체)일 수 있다. 올리고뉴클레오티드 또는 핵산은 개질된 염기 및/또는 골격(예컨대, 개질된 포스페이트 연결부 또는 개질된 당 모이어티)도 또한 포함할 수 있다. 핵산에 안정성 및/또는 다른 이점을 부여하는 합성 골격의 비-제한적 예시는 포스포로티오에이트 연결부, 펩티드 핵산, 잠금 핵산, 자일로스핵산, 또는 그의 유사체를 포함할 수 있다.
본 발명에서 용어 “핵산”은 뉴클레오티드 폴리머를 지칭하며, 달리 한정되지 않는다면 자연적으로 발생한 뉴클레오티드와 유사한 방식(예컨대, 혼성화)으로 작용할 수 있는 천연 뉴클레오티드의 공지된 유사체(analog)를 포함한다.
용어 핵산은, 예를 들어 유전체 DNA; 상보 DNA(cDNA)(이는 보통 전령 RNA(mRNA)의 역전사 또는 증폭으로 얻어지는 mRNA의 DNA 표현임); 합성으로 또는 증폭으로 생성된 DNA 분자; 및 mRNA를 포함한 임의의 형태의 DNA 또는RNA를 포함한다.
용어 핵산은 단일 가닥 분자뿐만 아니라 이중 또는 삼중 가닥 핵산을 포함한다. 이중 또는 삼중 가닥 핵산에서, 핵산 가닥은 동연(coextensive)일 필요는 없다(즉, 이중 가닥 핵산은 양 가닥의 전체 길이를 따라 이중 가닥일 필요는 없다).
용어 핵산은 또한 메틸화 및/또는 캡핑과 같은 것에 의한 이의 임의의 화학적 개질을 포함한다. 핵산 개질은 개별적인 핵산 염기 또는 핵산 전체에 추가적인 전하, 분극률, 수소 결합, 정전기 상호작용, 및 기능성을 포함하는 화학기의 첨가를 포함할 수 있다. 이러한 개질은 2' 위치 당 개질, 5 위치 피리미딘 개질, 8 위치 퓨린개질, 시토신 환외(exocyclic) 아민에서의 개질, 5-브로모-우라실의 치환, 주쇄 개질, 이소염기 이소시티딘 및 이소구아니딘과 같은 특이 염기 쌍 조합 등과 같은 염기 개질을 포함할 수 있다.
핵산(들)은 고상 매개 화학적 합성(solid phase-mediated chemical synthesis)과 같은 완전한 화학적 합성 과정으로부터, 핵산을 생성하는 임의의 종으로부터 분리를 통해서와 같은 생물학적 공급원으로부터, 또는 DNA 복제, PCR 증폭, 역전사와 같은 분자 생물학 도구에 의한 핵산의 취급과 관련된 과정으로부터, 또는 이들 과정의 결합으로부터 유도될 수 있다.
본 발명에서 용어 “상보”는 2개의 뉴클레오티드 사이의 정확한 쌍형성에 대한 능력을 지칭한다. 즉, 핵산의 주어진 위치에서 뉴클레오티드가 다른 핵산의 뉴클레오티드와 수소 결합을 할 수 있다면, 2개의 핵산은 그 위치에서 서로 상보적인 것으로 여겨진다. 뉴클레오티드의 일부만이 결합하여 2개의 단일 가닥 핵산 분자 사이의 상보성은 “부분적”일 수 있거나, 또는 전체 상보성이 단일 가닥 분자 사이에 존재할 때 상보성은 완전할 수 있다. 핵산 가닥 사이의 상보성의 정도는 핵산 가닥 사이의 혼성화의 효율 및 강도에 상당한 영향을 미친다.
본 발명에서 용어 ‘프라이머(primer)’는 적합한 온도에서 적합한 완충액 내에서 적합한 조건(즉, 4종의 다른 뉴클레오시드트리포스페이트 및 중합 반응 효소 하에서 주형-지시 DNA 합성의 개시점으로 작용할 수 있는 단일 가닥의 올리고뉴클레오티드를 의미한다. 프라이머의 적합한 길이는 다양한 인자, 예를 들어, 온도와 프라이머의 용도에 따라 차이가 있지만 전형적으로 15 내지 30개의 뉴클레오티드이다. 짧은 프라이머는 주형과 충분히 안정된 혼성화 복합체를 형성하기 위하여 일반적으로 보다 낮은 온도를 요구할 수 있다. 용어 "전방향 프라이머(forward primer)" 및 "역방향 프라이머(reverse primer)"는 중합 효소 연쇄 반응에 의해 증폭되는 주형의 일정한 부위의 3' 말단 및 5' 말단에 각각 결합하는 프라이머를 의미한다. 프라이머의 서열은 주형의 일부 서열과 완전하게 상보적인 서열을 가질 필요는 없으며, 주형과 혼성화 되어 프라이머 고유의 작용을 할 수 있는 범위 내에서의 충분한 상보성을 가지면 충분하다. 따라서, 일 구체예에 따른 프라이머 세트는 주형인 뉴클레오티드 서열에 완벽하게 상보적인 서열을 가질 필요는 없으며, 이 서열에 혼성화되어 프라이머 작용을 할 수 있는 범위 내에서 충분한 상보성을 가지면 충분한 것으로 해석된다. 이러한 프라이머의 디자인은 주형이 되는 폴리뉴클레오티드의 염기 서열을 참조하여 당업자에 의해 용이하게 실시할 수 있으며, 예를 들어, 프라이머 디자인용 프로그램(예를 들어, PRIMER 3, VectorNTI 프로그램)을 이용하여 할 수 있다.
본 발명에서 용어 ‘증폭’은 핵산 분자를 증폭하는 반응을 의미한다. 다양한 증폭 반응들이 당업계에 보고 되어 있으며, 이는 중합효소 연쇄반응(이하 PCR이라 한다)(미국 특허 제4,683,195, 4,683,202, 및 4,800,159호), 역전사-중합효소 연쇄반응(이하 RT-PCR로 표기한다)(Sambrook et al., Molecular Cloning. A Laboratory Manual, 3rd ed. Cold Spring Harbor Press(2001)), WO 89/06700 및 EP 329,822의 방법, 리가아제 연쇄 반응(ligase chain reaction; LCR, WO 90/01069), 복구 연쇄 반응(repair chain reaction; EP 439,182), 전사-중재 증폭(transcription-mediated amplification; MA, WO 88/10315), 자가 유지 염기서열 복제(self-sustained sequence replication, WO 90/06995), 타깃 폴리뉴클레오티드 염기서열의 선택적 증폭(selective amplification of target polynucleotide sequences, 미국 특허 제6,410,276호), 컨센서스 서열 프라이밍 중합효소 연쇄 반응(consensus sequence primed polymerase chain reaction; CP-PCR, 미국 특허 제4,437,975호), 임의적 프라이밍 중합효소 연쇄 반응(arbitrarily primed polymerase chain reaction; AP-PCR, 미국 특허 제5,413,909호 및 제5,861,245호), 핵산 염기서열 기반 증폭(nucleic acid sequence based amplification; NASBA, 미국 특허 제5,130,238호, 제5,409,818호, 제5,554,517호, 및 제6,063,603호), 가닥 치환 증폭(strand displacement amplification) 및 고리-중재 항온성 증폭(loop-mediated isothermal amplification; LAMP)을 포함하나, 이에 한정되지는 않는다.
사용 가능한 다른 증폭 방법들은 미국특허 제5,242,794, 5,494,810, 4,988,617호 및 미국 특허 제09/854,317호에 기술되어 있다.
PCR은 가장 잘 알려진 핵산 증폭 방법으로, 그의 많은 변형과 응용들이 개발되어 있다. 예를 들어, PCR의 특이성 또는 민감성을 증진시키기 위해 전통적인 PCR 절차를 변형시켜 터치다운(touchdown) PCR, 핫 스타트(hot start) PCR, 네스티드(nested) PCR 및 부스터(booster) PCR이 개발되었다. 또한, 실시간(real-time) PCR, 분별 디스플레이 PCR(differential display PCR, D-PCR), cDNA 말단의 신속 증폭(rapid amplification of cDNA ends, RACE), DL-PCR(PC), 인버스 중합효소 연쇄반응(inverse polymerase chain reaction: IPCR), 벡토레트(vectorette) PCR, 및 TAIL-PCR(thermal asymmetric interlaced PCR)이 특정한 응용을 위해 개발되었다. PCR에 대한 자세한 내용은 McPherson, M.J., 및 Moller, S.G. PCR. BIOS Scientific Publishers, Springer-Verlag New York Berlin Heidelberg, N.Y. (2000)에 기재되어 있으며, 그의 교시사항은 본 명세서에 참조로 삽입된다.
상기 멀티플렉스 증폭은 멀티플렉스 PCR(Polymerase Chain Reaction) 증폭이다. 본 발명의 일 구현예에 따르면, 상기 멀티플렉스 PCR 증폭은 57-61℃의 어닐링(annealing) 온도 조건을 갖고, 본 발명의 다른 구현예에 따르면, 상기 멀티플렉스 PCR 증폭은 58-60℃의 어닐링 온도 조건을 가지며, 본 발명의 특정 구현예에 따르면, 상기 멀티플렉스 PCR 증폭은 58.5-59.5℃의 어닐링 온도 조건을 갖는다.
상기 멀티플렉스 PCR 증폭은 PCR을 실시하는 데 적정한 싸이클 수가 요구된다. 본 발명의 일 구현예에 따르면, 상기 멀티플렉스 PCR 증폭은 27-30 싸이클로 실시한다. 본 발명의 멀티플렉스 PCR 증폭을 26 싸이클 이하로 실시하는 경우에 500 RFU 이하의 피크들이 형성되었고, 31 싸이클에서는 2,000 RFU 이상의 피크가 형성되었지만 노이즈가 증가하고 불완전한 A 삽입이 발생하여 적합하지 않다.
본 발명에서 용어 “프로브”는 하나 이상 유형의 화학 결합을 통하여, 일반적으로 상보적 염기 쌍형성을 통하여, 보통 수소 결합 형성을 통하여 상보적인 서열의 표적 핵산에 결합하고 따라서 이중나선(duplex) 구조를 형성할 수 있는 핵산이다. 프로브는 “프로브 결합 부위”에 결합 또는 혼성화한다. 특히, 일단 프로브가 프로브의 상보적인 표적에 혼성화하면 프로브의 검출을 용이하게 하도록 프로브는 검출가능한 표지로 표지될 수 있다. 그러나 대안적으로, 프로브는 표지화되지 않을 수 있지만, 표지화된 리간드와의 특이적 결합에 의해 직접적으로 또는 간접적으로 검출될 수 있다. 프로브는 크기가 상당히 다양할 수 있다. 일반적으로 프로브는 길이가 적어도 7 내지 18개 뉴클레오티드이다. 다른 프로브는 길이가 적어도 20, 30 또는 40개 뉴클레오티드이다. 또 다른 프로브는 다소 더 길며, 길이가 적어도 50, 60, 70, 80, 또는 90개 뉴클레오티드이다. 또 다른 프로브는 더욱 더 길며, 길이가 적어도 100, 150, 200개 또는 그 이상의 뉴클레오티드이다. 프로브는 또한 상기 값(예컨대, 길이가 15~20개 뉴클레오티드)의 임의의 값으로 한정된 임의의 범위 내에 있는 임의의 길이의 것일 수 있다.
본 발명에서 용어 “혼성화”는 상보적 염기서열을 가진 단일가닥 핵산들 간 수소결합에 의해 이중가닥 핵산이 형성되는 것을 의미하며, 어닐링(annealing)과 유사한 의미로 사용된다. 다만 조금 더 넓은 의미에서, 혼성화는 두 개의 단일가닥 간 염기서열이 완전히 상보적인 경우(perfect match)와 더불어 예외적으로 일부의 염기서열이 상보적이지 않은 경우(mismatch)까지 포함한다.
본 발명에서 용어 "획득하다" 또는 "획득하는"이 본 명세서에서 사용되며, 물리적 독립체 또는 값을 "직접적으로 획득하거나" 또는 "간접적으로 획득함으로써" 물리적 독립체 또는 값, 예를 들어 수치적 값의 소유를 얻는 것을 지칭한다. "간접적으로 획득하는"은 물리적 독립체 또는 값을 얻기 위한 처리를 수행하는 것(예를 들어, 합성 또는 분석 방법을 수행하는 것)을 의미한다. "간접적으로 획득하는 것"은 다른 관계자 또는 공급원(예를 들어 물리적 독립체 또는 값을 직접적으로 획득한 제3자 연구소)으로부터 물리적 독립체 또는 값을 수용하는 것을 지칭한다.
물리적 독립체를 간접적으로 획득하는 것은 물리적 물질, 예를 들어 출발 물질에서 물리적 변화를 포함하는 처리를 수행하는 것을 포함한다. 대표적인 변화는 2 이상의 출발 물질로부터 물리적 독립체를 만드는 것, 물질을 전단(shearing) 또는 단편화하는 것, 물질을 분리시키거나 정제하는 것, 2 이상의 별개의 독립체를 혼합물로 합하는 것, 공유 또는 비공유 결합을 파괴하거나 또는 형성하는 것을 포함하는 화학 반응을 수행하는 것을 포함한다. 값을 간접적으로 획득하는 것은 샘플 또는 다른 물질에서 물리적 변화를 포함하는 처리를 수행하는 것, 예를 들어 물질, 예를 들어 샘플, 분석물 또는 시약에서 물리적 변화를 포함하는 분석 과정을 수행하는 것(때때로, 본 발명에서 "물리적 분석"으로서 지칭됨), 분석 방법, 예를 들어 다음 중 하나 이상을 포함하는 방법을 수행하는 것: 물질, 예를 들어 분석물 또는 이것의 단편 또는 다른 유도체를 다른 물질로부터 분리시키거나 또는 정제하는 것; 분석물 또는 이것의 단편 또는 다른 유도체를 다른 물질, 예를 들어 완충제, 용매 또는 반응물과 합하는 것; 또는, 예를 들어 분석물의 제1 원자와 제2 원자 사이의 공유 또는 비공유 결합을 파괴하거나 또는 형성함으로써 분석물 또는 이것의 단편 또는 다른 유도체의 구조를 변화시키는 것; 또는, 예를 들어 시약의 제1과 제2 원자 사이의 공유 또는 비공유 결합을 파괴하거나 형성함으로써 시약 또는 이것의 단편 또는 다른 유도체의 구조를 변화시키는 것을 포함한다.
본 발명에서 용어 "서열을 획득하는 것" 또는 "리드를 획득하는 것"은 본 명세서에서 사용되며, 서열 또는 리드를 "직접적으로 획득하거나" 또는 "간접적으로 획득함으로써" 뉴클레오타이드 서열 또는 아미노산 서열의 소유를 얻는 것을 지칭한다. 서열 또는 리드를 "직접적으로 획득하는 것"은 시퀀싱 방법(예를 들어, 차세대 시퀀싱(NGS) 방법)을 수행하는 것과 같이 서열을 얻기 위한 과정을 수행하는 것(예를 들어, 합성 또는 분석 방법을 수행하는 것)을 의미한다. 서열 또는 리드를 "간접적으로 획득하는"은 다른 관계자 또는 공급원(예를 들어 서열을 직접적으로 획득한 제3자 연구소)으로부터 서열을 수용하거나 또는 서열의 정보 또는 지식을 수용하는 것을 지칭한다.
획득한 서열 또는 리드는 완전한 서열일 필요는 없으며, 예를 들어 적어도 하나의 뉴클레오타이드의 시퀀싱 또는 피험체에서 존재하는 것과 같은 본 명세서에 개시된 변경 중 하나 이상을 확인하는 정보 또는 지식을 얻는 것은 서열을 획득하는 것을 구성한다.
서열 또는 리드를 직접적으로 획득하는 것은 물리적 물질, 예를 들어 출발 물질, 예컨대 조직 또는 세포 샘플, 예를 들어 생검 또는 분리된 핵산(예를 들어 DNA 또는 RNA) 샘플에서 물리적 변화를 포함하는 과정을 수행하는 것을 포함한다. 대표적인 변화는 2 이상의 출발 물질, 물질을 전단 또는 단편화하는 것, 예컨대 게놈 DNA 단편으로부터 물리적 독립체를 제조하는 것(예를 들어, 조직으로부터 핵산 샘플을 분리시키는 것); 2 이상의 별개의 독립체를 혼합물로 합하는 것, 공유 또는 비-공유 결합을 파괴하거나 또는 형성하는 것을 포함하는 화학 반응을 수행하는 것을 포함한다. 값을 직접적으로 획득하는 것은 상기 기재한 바와 같은 샘플 또는 다른 물질에서 물리적 변화를 포함하는 과정을 수행하는 것을 포함한다.
본 발명에서 용어 "샘플을 획득하는 것"은 본 명세서에서 사용되며, 샘플을 "직접적으로 획득하거나" 또는 "간접적으로 획득함으로써" 샘플, 예를 들어 조직 샘플 또는 핵산 샘플의 소유를 얻는 것을 지칭한다. "샘플을 직접적으로 획득하는 것"은 샘플을 얻기 위한 과정을 수행하는 것(예를 들어, 수술 또는 추출과 같은 물리적 방법을 수행하는 것)을 의미한다. "샘플을 간접적으로 획득하는 것"은 다른 관계자 또는 공급원(예를 들어 샘플을 직접적으로 획득한 제3자 연구소)으로부터 샘플을 수용하는 것을 지칭한다. 샘플을 직접적으로 획득하는 것은 물리적 물질, 예를 들어 출발 물질, 예컨대 조직, 예를 들어 인간 환자의 조직 또는 환자로부터 사전에 분리한 조직에서 물리적 변화를 포함하는 과정을 수행하는 것을 포함한다. 대표적인 변화는 출발 물질로부터 물리적 독립체를 제조하는 것, 조직을 해부하거나 또는 스크레이핑(scraping)하는 것; 물질(예를 들어, 샘플 조직 또는 핵산 샘플)을 분리시키거나 또는 정제하는 것; 2 이상의 별개의 독립체를 혼합물로 합하는 것; 공유 또는 비-공유 결합을 파괴하거나 또는 형성하는 것을 포함하는 화학 반응을 수행하는 것을 포함한다. 샘플을 직접적으로 획득하는 것은, 예를 들어 상기 기재한 바와 같은 샘플 또는 다른 물질에서 물리적 변화를 포함하는 과정을 수행하는 것을 포함한다.
유전자 또는 유전자 생성물(예를 들어, 마커 유전자 또는 유전자 생성물)의 본 발명에서 사용된 바와 같은 "변경" 또는 "변경된 구조"는 유전자 또는 유전자 생성물 내의 돌연변이 또는 돌연변이들, 예를 들어 정상 또는 야생형 유전자와 비교하여 유전자 또는 유전자 생성물의 양 또는 활성에 영향을 미치는 돌연변이의 존재를 지칭한다. 변경은 정상 또는 건강한 조직 또는 세포(예를 들어, 대조군)에서 세포의 양, 구조 및/또는 활성과 비교하여, 암 조직 또는 암 세포에서 양, 구조 및/또는 활성일 수 있고, 암과 같은 질병 상태와 관련된다. 예를 들어, 암과 관련된 변경 또는 항암 치료에 대한 반응의 예측은 정상의, 건강한 조직 또는 세포와 비교하여 암 조직 또는 암 세포에서 변경된 뉴클레오타이드 서열(예를 들어, 돌연변이), 아미노산 서열, 염색체 전위, 염색체내 역위, 복제수, 발현 수준, 단백질 수준, 단백질 활성, 메틸화 상태를 가질 수 있다. 대표적인 돌연변이는, 이하로 제한되는 것은 아니지만, 점돌연변이(예를 들어, 침묵, 미스센스 또는 넌센스), 결실, 삽입, 역위, 연결 돌연변이, 복제물, 저위, 염색체간 및 염색체내 재정렬을 포함한다. 돌연변이는 유전자의 암호 또는 비-암호 영역에 존재할 수 있다. 특정 실시형태에서, 변경(들)은 재배열, 예를 들어 하나 이상의 인트론 또는 이것의 단편을 포함하는 게놈 재배열로서 검출된다(예를 들어, 5'- 및/또는 3'-UTR에서 하나 이상의 재정렬). 특정 실시형태에서, 변경은 표현형, 예를 들어 암 표현형(예를 들어, 암 표현형(예를 들어, 암 위험, 암 진행, 암 치료 또는 암 치료에 대한 내성 중 하나 이상)과 관련된다. 일 실시형태에서, 변경은 다음 중 하나 이상과 관련된다:
암에 대한 유전적 위험, 양성 치료 반응, 음성 치료 반응 예측자, 양성 예후 인자, 음성 예후 인자 또는 진단 인자.
본 발명에서 용어 "베이트"는 혼성체 포획 시약의 유형이다. 베이트는 혼성화될 수 있는(예를 들어 상보적일 수 있는) 핵산 분자, 예를 들어 DNA 또는 RNA 분자일 수 있고, 이에 의해 표적 핵산을 포획하게 한다. 일 실시형태에서, 베이트는 RNA 분자(예를 들어, 자연적으로 발생하거나 또는 변형된 RNA 분자); DNA 분자(예를 들어, 자연적으로 발생하거나 또는 변형된 DNA 분자) 또는 이것의 조합이다. 다른 실시형태에서, 베이트는 결합 독립체, 예를 들어 친화도 태그를 포함하는데, 이는 베이트에 의해 형성된 혼성체 및 베이트에 혼성화된 핵산의, 예를 들어 결합 독립체에 결합에 의해 포획 및 분리시킨다. 일 실시형태에서, 베이트는 용액 상 혼성화에 적합하다.
본 발명에서 용어 "베이트 세트"는 하나 또는 다수의 베이트 분자를 지칭한다.
본 발명에서 용어 "암" 또는 "종양"은 본 발명에서 상호 호환적으로 사용된다. 이들 용어는 암-원인 세포의 전형적인 특징, 예컨대 제어되지 않는 증식, 불멸, 전이 가능성, 빠른 성장 및 증식 속도 및 어떤 특징적 형태학적 특징을 소유하는 세포의 존재를 지칭한다. 암 세포는 종종 종양 형태이지만, 이러한 세포는 동물 내에서 단독으로 존재할 수 있거나 또는 비-종양 암 세포, 예컨대 백혈병 세포일 수 있다. 이들 용어는 고형 종양, 연조직 종양 또는 전이성 병변을 포함한다. 본 명세서에서 사용되는 용어 "암"은 전암성뿐만 아니라 악성 암을 포함한다.
본 발명에서 용어 "라이브러리"는 구성원의 수집물을 지칭한다. 일 실시형태에서, 라이브러리는 핵산 구성원의 수집물 예를 들어, 전체 게놈, 서브게놈 단편, cDNA, cDNA 단편, RNA, RNA 단편 또는 이들의 조합의 수집물을 포함한다. 일 실시형태에서, 라이브러리 구성원의 일부 또는 모두는 어댑터 서열을 포함한다. 어댑터 서열은 한 말단 또는 양 말단에 위치될 수 있다. 어댑터 서열은, 예를 들어 시퀀싱 방법을 위해(예를 들어 NGS 방법), 증폭을 위해, 역전사를 위해 또는 벡터 내로 클로닝을 위해 유용할 수 있다.
라이브러리는 구성원, 예를 들어 표적 구성원(예를 들어, 종양 구성원, 기준 구성원, PGx 구성원 또는 이들의 조합)의 수집물을 포함할 수 있다. 라이브러리의 구성원은 단일 개체로부터 유래될 수 있다. 실시형태에서, 라이브러리는 하나 이상의 피험체(예를 들어, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30명 이상의 피험체)로부터 유래된 구성원을 포함할 수 있고, 예를 들어, 상이한 피험체로부터 둘 이상의 라이브러리는 조합되어 하나 이상의 피험체로부터 유래된 구성원을 갖는 라이브러리를 형성할 수 있다. 일 실시형태에서, 피험체는 암 또는 종양을 가지거나 또는 암 또는 종양을 가질 위험에 있는 인간이다.
본 발명에서 용어 "차세대 시퀀싱 또는 NGS 또는 NG 시퀀싱"은 개개의 핵산 분자(예를 들어 단일 분자 시퀀싱에서) 또는 고속 대량 방식으로(예를 들어, 10^3, 10^4, 10^5 이상의 분자가 동시에 시퀀싱됨) 개개의 핵산 분자에 대해 클론으로 확장된 프록시(proxy) 중 하나의 뉴클레오타이드 서열을 결정하는 임의의 시퀀싱 방법을 지칭한다. 일 실시형태에서, 라이브러리 내 핵산 종의 상대적 존재비는 시퀀싱 실험에 의해 만들어진 데이터에서 그것의 동족 서열의 발생의 상대적인 수를 계측함으로써 추정될 수 있다. 차세대 시퀀싱 방법은 당업계에 공지되어 있으며, 예를 들어 본 명세서에 참조로서 포함된 문헌(Metzker, M. (2010) Nature Biotechnology Reviews11:31-46)에 기재된다. 차세대 시퀀싱은 샘플 내 핵산의 5% 미만으로 존재하는 변이체를 검출할 수 있다.
본 발명에서 "또는"은 의미를 위해 본 명세서에서 사용되며, 달리 명확하게 표시되지 않는다면, "및/또는"이라는 용어와 상호 호환적으로 사용된다. 본 명세서의 일부 위치에서 용어 "및/또는"의 사용은 "또는"이라는 용어의 사용이 달리 명확하게 표시되지 않는다면 "및/또는"이라는 용어와 상호 호환될 수 없다는 것을 의미하지는 않는다.
본 발명에서 용어 "샘플", "조직 샘플", "환자 샘플", "환자 세포 또는 조직 샘플" 또는 "표본"은 각각 피험체 또는 환자의 조직 또는 순환 세포로부터 얻은 유사한 세포의 수집을 지칭한다. 조직 샘플의 공급원은 신선한, 냉동 및/또는 보존된 기관, 조직 샘플, 생검 또는 흡입으로부터의 고형 조직; 혈액 또는 임의의 혈액 구성요소; 체액, 예컨대 뇌척수액, 양수, 복막액 또는 세포간질액; 또는 피험체의 임신 또는 발생에서 어느 시점으로부터의 세포일 수 있다. 조직 샘플은 자연에서 조직과 자연적으로 상호혼합되지 않는 화합물, 예컨대 보존제, 항응고제, 완충제, 정착제, 영양제, 항생제 등을 함유할 수 있다. 일 실시형태에서, 샘플은 냉동 샘플로서 또는 포름알데하이드- 또는 파라포름알데하이드-고정 파라핀-포매(paraformaldehyde-fixed paraffin-embedded: FFPE) 조직 제조물로서 제조된다. 예를 들어, 샘플은 매트릭스, 예를 들어 FFPE 블록 또는 냉동 샘플에서 포매될 수 있다.
일 실시형태에서, 샘플은 종양 샘플이며, 예를 들어, 하나 이상의 전암성 또는 악성 세포를 포함한다. 특정 실시형태에서, 샘플, 예를 들어 종양 샘플은 고형 종양, 연조직 종양 또는 전이성 병변으로부터 획득된다. 다른 실시형태에서, 샘플, 예를 들어 종양 샘플은 수술절제면으로부터 조직 또는 세포를 포함한다. 다른 실시형태에서, 샘플, 예를 들어 종양 샘플은 하나 이상의 혈중 종양 세포(CTC)(예를 들어, 혈액 샘플로부터 획득한 CTC)를포함한다.
본 발명에서 용어 “변이(variant)”는 참조 서열과 상이한 샘플 핵산 염기서열의 변화를 지칭한다. 본 발명에서 상기 변이는 유해한 변이(deleterious mutation) 및 복제수 변이(copy number alteration)를 포함하고, 상기 유해한 변이는 i) 코딩 영역 내에서 정상 위치보다 앞선 부위에 정지 코돈이 있는 단백절단변이(protein truncating alterations); ii) 인트론과 엑손 접합 부위에서 비-동의코돈(non-synonymous codon, 아미노산 서열이 변경됨)이 있는 접합부위변이; 및 iii) 코딩 영역 내에서 염기서열 일부가 삽입 또는 삭제로 인해 코돈이 변경되는 프레임이동 변이(frameshift alterations)를 포함하며, 상기 복제수 변이는 1개 이상의 핵산 또는 코돈이 결실되는 복제수 결실 변이(copy number deletion) 및 1개 이상의 핵산 또는 코돈이 증폭되는 복제수 증폭 변이(copy number amplification)를 포함할 수 있다.
본 발명에서 상동재조합결핍(Homologous Recombination Deficiency, HRD)는 손상된 DNA를 수리하는 상동성 재조합(Homologous Recombination, HR) 기능에 이상이 발생한 경우를 지칭한다. 구체적인 내용은 후술한다.
B. PAPR 저해제
1. PARP 저해제의 작동 기작
DNA는 방사선이나 자외선 등의 환경적 요인에 의해 손상을 입을 뿐만 아니라, 신진대사의 산물인 활성 산소나 DNA 복제 실패 등의 내부적 요인에 의해서도 지속적으로 손상을 받는다. 이러한 환경적인 요인과 정상적인 대사활동으로 인한 요인에 맞물려 인간의 DNA는 복제 시 필연적으로 에러가 발생되며, 정상세포 기준으로 하루에 약 1,000~1,000,000 번의 DNA breaking이 보고되고 있다. 특히 암세포의 경우 이러한 DNA breaking은 정상세포에 비해 수 십에서 수 백배 높다.
PARP 단백질은 DNA 복제 시 필연적으로 발생되는 에러를 복구하기 위해 필요한 단백질로서 핵에서 손상된 DNA를 인지하여 활성화 된 후 DNA repair 관련 단백질들을 post-translation 과정을 통해 활성화시키는 효소이다. 지금까지 약 17개의 PARP family가 알려졌지만, 오직 PARP-1과 PARP-2 단백질 만이 poly(ADP-ribosyl)ation이 가능한 DNA-repairing enzyme으로서 밝혀져 있으며 세포의 생존에 반드시 필요한 단백질로 알려져 있다.
다수의 비 임상 시험으로부터 PARP-1 단백질 저해 시 정상세포와는 달리 암 세포에서 선택적으로 강한 세포독성이 유발되는 데, 이는 DDR(DNA damage response)이라는 수리 시스템이 우리 몸에 존재하기 때문이다. 가장 대표적 DDR으로는 BRCA1/2가 관여하는 상동성 재조합(HR, Homologous recombination)과 DNA-PK가 관여하는 NHEJ(Non-homologous end joining)이 있다.
DNA 손상 시스템에는 많은 단백질들이 관여하고 있어 만약 이들에 있어서 돌연변이가 발생할 경우, DNA 수리 시스템에 문제가 발생해 암이 발생될 확률이 수 배에서 수백 배까지 올라간다. 그 때문에 일반적으로 세포들은 DNA 손상을 수리 하기 위해 두 개 이상의 복잡한 메커니즘을 지니고 있으나 이 메커니즘 또한 전체 게놈의 안정성에 영향을 주게 된다.
일반적으로 상동재조합(HR) 기능이 상실되면 유전체가 불안정하게 되고, 이는 다양한 유전적 변화를 유발시킴으로써 결국 종양이 발생된다. 그런데 이러한 DNA 복구가 올바르게 진행되지 못해 발생된 암 세포의 경우에는 cisplatin과 같은 DNA에 손상을 주는 항암제에 더욱 민감할 수 있다는 것이 1990년대 말부터 제안되었다. 항암작용을 목적으로 한 PARP 단백질 저해는 바로 이러한 DDR repair system이 기능을 제대로 하지 못해 발생한 암을 대상으로 암 특이적인 사멸을 유도하는 기전으로, “Synthetic lethality” 이론을 중심으로 연구개발 되었다.
지난 2014년 최초로 FDA/EMA에 동시 승인된 PARP 저해제인 Olaparib(LYNPARZATM)은 개발 당시 약물의 효과적인 사용을 목적으로 시판 전 승인절차(Premarket approval pathway)를 통해 동반진단제(BRAC Analysis CDxTM)를 동시에 개발하였으며, 두 번째로 FDA에 승인된 약물인 Rucaparib(RUBRACATM) 역시 동반진단제(FoundationFocus CDx BRCATM)를 이용하여 현재도 BRCA 변이 환자 대상으로 처방이 이루어지고 있다. 다만, 2017년 FDA에서 승인 받은 Niraparib(ZEJULATM)은 상피성 난소암(epithelial ovarian cancer), 나팔관 암(fallopian tube cancer) 및 원발성 복막암(primary peritoneal cancer)에서 platinum 감수성 환자를 대상으로 별도의 동반진단제 없이 승인을 받았다.
그러나 여전히 많은 암 전문가들은 PARP 저해제를 바이오마커 독립적으로 환자에게 처방하는 것에 대한 임상학적 유효성 및 경제성 평가에 의문을 가지고 있는 실정이다.
Poly ADP ribose polymerase (PARP) enzyme 특징
PARP-1/2 단백질은 핵에서 손상된 DNA를 인지하여 활성화 된 후 여러 단백질들을 poly(ADP-ribosyl)ation이라는 post-translation 과정을 통해 변형시키는 효소이다. 지금까지 알려진 poly(ADPribosyl)ation의 기질들 중 가장 주요한 것은 바로 PARP-1 자신이며 그 외 히스톤(histones), DNA 토포아이소머레이스(topoisomerases), DNA 리가아제(ligases), p53와 NF-κB 등의 전사 관련 인자 등 많은 핵 내 단백질들이 poly(ADP-ribosyl)ation을 겪는다. 현재까지 17종의 PARP 패밀리 단백질들 중 PARP-1이 대부분의 poly(ADPribosyl)ation을 매개하는 것으로 알려져 있다. 구조상 PARP-1은 크게 세 가지 도메인으로 이루어져 있는데, N-말단 쪽의 DNA 바인딩 도메인은 두 Zn 핑거 모티프를 가지고 있어서 이를 통해 DNA 가닥의 손상을 인지한다. C-말단 쪽에는 효소의 활성을 나타내는 PARP 도메인을 가지고 있는데 특히 효소활성 부위 안에 있는 PARP 시그니쳐(signature) 서열은 모든 PARP 패밀리 단백질들 간에 잘 보존되어 있다. 가운데 위치한 오토모디피케이션 도메인(automodification domain)이 poly(ADP-ribosyl)ation을 위해 필요한 아미노산 서열을 가지고 있다.
PAR 폴리머의 합성과 분해 과정은 앞에서 언급한 PARP와 PARG (poly ADP ribose glycohydrolase)라는 효소들에 의해 조절 된다. 먼저 활성화된 PARP-1은 NAD로 부터 ADP-ribose잔기를 떼어내어 기질 단백질에 붙이는데 사슬을 연장하기 위해 ADP-ribose 분자들 간의 1”→2’glycosidic bond를, 사슬의 가지치기를 위해 1”→2”glycosidic bond를 각각 촉매한다. 그 결과 ADP-ribose가 약 200 단위까지 연결된 긴 사슬의 poly(ADPribose) 중합체를 만들게 된다. PARG는 지금까지 알려진 유일한 PAR 분해효소로서 매우 높은 exo- 그리고 endo-glycosidase 활성으로 PAR 폴리머를 ADP-ribose 단위로 가수분해한다. 마지막으로 기질 단백질에 붙어있는 최후의 ADP-ribose 단위는 ADP-ribosyl protein lyase라는 효소에 의해 잘리는 것으로 알려져 있다.
DNA repair pathway
포유동물의 DNA repair pathway는 7개로 구분되지만, 주된 메커니즘은 크게 single-strand break(SSB) repair와 double-strand break(DSB) repair로 나눠지며 SSB repair는 다시 BER(base excision repair), MMR(mismatch repair), NER(Nucleotide excision repair)로 분류되고, DSB repair는 HR(homologous recombination), NHEJ(Non-homologous end joining)로 나누어 진다. 그 밖에 DNA lesions이 있을 경우 충돌이 일어나지 않도록 replication forks를 형성하는 TLS(Translesion DNA synthesis)와 Protein complexes의 post-translational modification을 통해 DNA repair의 단계를 조정하고 chromatin-associated DNA repair를 포함하여 DNA repair network에서 상호 작용을 형성하는데 관여하는 DDR(Network of DNA damage responses)이 보고되어 있다(표 2).
이 중에서 DNA 단일가닥 절단(SSB)에 관여하는 BER는 DNA의 oxidative damage에서 가장 활성이 높은 constitutive DNA repair pathway로 밝혀져 있으며 PARP-1이 바로 BER 작용의 key protein으로 알려져 있다. 한편 DNA 이중가닥 절단(DSB) 시 HR(상동염색체교체결합)은 DSB repair의 핵심 과정으로 복구 시 error가 낮은 것이 특징이며 MRN complex(MRE11, RAD50, NBS1)와 BRCA1/2 등이 연관되어 있다. 이는 절단된 부분과 같은 2가닥의 염기서열 가진 딸 염색체를 만들어 붙이는 공정으로 cell cycle 중 S기~G2기 동안 작동이 가능하다. 반면에 NHEJ는 homologous template가 필요 없는 대신 DNA-PKcs, Ku70/80 등이 연관되는 DNA repair 과정으로 cell-cycle에 영향을 받지 않고 빠르게 일어나는 것이 특징적이나 HR 과정 보다 error를 유발할 가능성이 높은 과정이다. 마지막으로 Translesion synthesis(TLS)는 DNA repair의 주된 과정은 아니나 DNA 손상부위를 bypass하고 원래 염기코드를 인식하는 과정으로 잘 알려져 있다.
Synthetic lethality
정상세포의 DNA에 SSB가 발생되면 이를 PARP-1이 작용하는 BER pathway가 일차적으로 수복한다. 그러나 ROS, X-rays, UV light 등으로 DNA damage가 일정 수준을 넘어서면 해당 세포 DNA는 DSB가 일어나고 이후 HR 또는 NHEJ pathway가 이중가닥 절단을 복구한다. 이와 같이 정상세포에서의 DNA 절단은 두 개 이상의 repair pathway에 의해 이중으로 복구되고 있다. 그러나 선천적 또는 후천적 요인으로 인해 HR 유전자 결핍/변이 또는 BRCAness 표현형 세포에서의 DSB repair pathway는 정상적으로 작동하기 어려우며, 따라서 이러한 세포에 SSB repair pathway 마저 억제하면 결국 DNA 절단으로 인해 cell death가 유발된다. 이러한 메카니즘이 synthetic lethality이며, 주로 유전자 결핍/변이로부터 발생된 암 세포를 타겟으로 연구가 활발히 진행되었다
PARP 저해제 타깃 암 질환
최근 유전에 기인한 유방암과 난소암에서 BRCA 유전자 돌연변이가 높은 비율로 발견됨에 따라 PARP 단백질 저해제에 대한 관심이 높아지고 있다. BRCA 유전자 돌연변이를 가진 여성의 경우 유방암 또는 난소암 발병확률이 각각 최대 80%, 60%까지 증가된다고 보고하였다
Germline BRCA 유전자 변이는 전체 유방암 환자의 약 15%, 난소암 환자의 약 14~17% 내외이지만, 자자손손 유전됨으로써 그 비중이 날로 증가하고 있다. 나아가 해당 유전자변이는 유방암, 난소암 그리고 전립선암 발병과 밀접하게 연관되어 있음이 다수의 문헌으로부터 밝혀졌다.
PARP 저해제의 타겟 질환 중 유방암과 전립선암은 세계적으로 연간 1,100,000만 명 이상 발생하며 연간 300,000명 이상 사망에 이른다. 반면에 난소암의 경우 유방암에 비해 발생율은 1/5 수준이지만 사망률은 1/2로 상당히 높다. 또한 국내 암 통계에 의하면, 2014년 2,413명의 난소암 환자가 발생하였고, 이중 약 40%인 940명이 사망한 것으로 보고되었다.
이렇게 난소암 사망률이 높은 이유는 난소암 환자의 2/3 이상이 3기 이상의 진행된 상태에서 발견되기 때문이다. 난소암으로 발전하기까지 대부분의 환자들은 증상이 거의 없거나, 있더라도 소화불량, 복부팽만감 등 비특이적인 증상을 보여 조기 진단이 어려울 뿐만 아니라 아직까지 난소암 조기진단을 위한 적절한 선별검사가 부재한 실정이다. 최근까지도 진행성 난소암 환자에 대한 치료는 환자의 조직학적 또는 생물학적 다양성 때문에 제대로 적용하기가 힘들었던 것이 사실이며, 일반적으로 수술과 platinum-taxane을 이용한 화학요법이 표준치료법이지만, platinum 제제에 대한 반응성이 있는 환자들의 약 85%가 결국 1년 이내에 재발되어 치료의 한계가 있는 상황이다.
본 발명에서 PARP 저해제의 표적 암 질환은 ACTH 생성 종양, 급성 림프구성 또는 림프아구성 백혈병, 급성 또는 만성의 림포구성 백혈병, 급성 비림프구성 백혈병, 방광암, 뇌종양, 유방암, 경관암, 만성 골수성 백혈병, 림프종, 자궁내막증, 식도암, 방광암, 에윙스 육종(Ewing's sarcoma), 설암, 홉킨스 림프종, 카포시스 육종, 신장암, 간암, 폐암, 중피종, 다발성 골수종, 신경아세포종, 비홉킨 림프종, 골육종, 난소암, 유선암, 전립선암, 췌장암, 대장암, 페니스암, 레티노블라스토마, 피부암, 위암, 갑상선압, 자궁암, 고환암, 윌름스 종양 및 트로포블라스토마로 구성된 군에서 선택되는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
2. PARP 저해제의 종류
본 발명에서 PARP 저해제는 PARP 단백질의 활성을 저해할 수 있는 물질이면 제한없이 이용가능하나, 바람직하게는 PARP 단백질 활성을 저해하는 천연 화합물, 합성 화합물, DNA, RNA, 펩티드, 효소, 리간드, 세포 추출물 또는 포유동물의 분비물인 것을 특징으로 할 수 있다.
본 발명에 따라 사용될 수 있는 화합물의 예에는 하기 것들이 포함된다:
1. 니코틴아미드, 예컨대 5-메틸 니코틴아미드 및 0-(2-히드록시-3-피페리디노-프로필)-3-카르복실산 아미독심, 및 이들의 유사체 및 유도체.
2. 벤즈아미드, 예를 들어 3-치환 벤즈아미드, 예컨대 3-아미노벤즈아미드, 3-히드록시벤즈아미드, 3-니트로소벤즈아미드, 3-메톡시벤즈아미드 및 3-클로로프로카인아미드, 및 4-아미노벤즈아미드, 1,5-디[(3-카르바모일페닐)아미노카르보닐옥시]펜텐, 및 이들의 유사체 및 유도체.
3. 이소퀴놀리논 및 디히드로이소퀴놀리논, 예를 들어 2H-이소퀴놀린-1-온, 3H-퀴나졸린-4-온, 5-치환 디히드로이소퀴놀리논, 예컨대 5-히드록시디히드로이소퀴놀리논, 5-메틸 디히드로이소퀴놀리논, 및 5-히드록시 이소퀴놀리논, 5-아미노이소퀴놀린-1-온, 5-디히드록시이소퀴놀리논, 3,4-디히드로이소퀴놀린-1(2H)-온, 예컨대 3,4 디히드로-5-메톡시-이소퀴놀린-1(2H)-온 및 3,4 디히드로-5-메틸-1(2H)이소퀴놀리논, 이소퀴놀린-1(2H)-온, 4,5-디히드로-이미다조[4,5,1-ij]퀴놀린-6-온, 1,6-나프티리딘-5(6H)-온, 1,8-나프탈이미드, 예컨대 4-아미노-1,8-나프탈이미드, 이소퀴놀리논, 3,4-디히드로-5-[4-1(1-피페리디닐)부톡시]-1(2H)-이소퀴놀리논, ,3-디히드로벤조[데]이소퀴놀린-1-온, 이미다조피리딘카르복사미드, 2-페닐인돌, 2-치환 벤족사졸, 예컨대 2-페닐 벤족사졸 및 2-(3-메톡시페닐)벤족사졸, 2-치환 벤즈이미다졸, 예컨대 2-페닐 벤즈이미다졸 및 2-(3-메톡시페닐)벤즈이미다졸, 1,3,4,5-테트라히드로-아제피노[5,4,3-cd]인돌-6-온, 아제피노인돌 및 아제피노인돌론, 예컨대 1,5-디히드로-아제피노[4,5,6-cd] 인돌린-6-온 및 디히드로디아자피노인돌리논, 3-치환 디히드로디아자피노인돌리논, 예컨대 3-(4-트리플루오로메틸페닐)-디히드로디아 자피노인돌리논, 테트라히드로디아자피노인돌리논 및 5,6-디히드로이미다조[4,5,1-j,k][1,4]벤조디아조핀-7(4H)-온, 2-페닐-5,6-디히드로-이미다조[4,5,1-jk][1,4] 벤조디아제핀-7(4H)-온 및 2,3,디히드로-이소인돌-1-온, 및 이들의 유사체 및 유도체.
5. 프탈라진-1(2H)-온 및 퀴나졸리논, 예컨대 4-히드록시퀴나졸린, 프탈라지논, 5-메톡시-4-메틸-1(2)프탈라지논, 4-치환 프탈라지논, 4-(1-피페라지닐)-1(2H)-프탈라지논, 테트라시클릭 벤조피라노[4,3,2-데]프탈라지논 및 테트라시클릭 인데노[1,2,3-데]프탈라지논 및 2-치환 퀴나졸린, 예컨대 8-히드록시-2-메틸퀴나졸린-4-(3H)온, 트리시클릭 프탈라지논 및 2-아미노프탈히드라지드, 및 이들의 유사체 및 유도체.
6. 이소인돌리논 및 이들의 유사체 및 유도체.
7. 페난트리딘 및 페난트리디논, 예컨대 5[H]페난트리딘-6-온, 치환 5[H]페난트리딘-6-온, 특히 2-, 3-치환 5[H]페난 트리딘-6-온 및 6(5H) 페난트리디논의 술폰아미드/카르바미드 유도체, 티에노[2,3-c]이소퀴놀리논, 예컨대 9-아미노티에노[2,3-c]이소퀴놀리논 및 9-히드록시티에노[2,3-c]이소퀴놀리논, 9-메톡시티에노[2,3-c]이소퀴놀리논, 및 N-(6-옥소-5,6-디히드로페난트리딘-2-일]-2-(N,N-디메틸아미노}아세트아미드, 치환 4,9-디히드로시클로펜타[lmn]페난트리딘-5-온, 및 이들의 유사체 및 유도체.
8. 벤조피론, 예컨대 1,2-벤조피론, 6-니트로소벤조피론, 6-니트로소-1,2-벤조피론, 및 5-요오도-6-아미노벤조피론, 및 이들의 유사체 및 유도체.
9. 불포화 히드록심산 유도체, 예컨대 0-(3-피페리디노-2-히드록시-1-프로필)니코티닉 아미독심, 및 이들의 유사체 및 유도체.
10. 피리다진, 예를 들어 융합된 피리다진 및 이들의 유사체 및 유도체.
11. 기타 화합물, 예컨대 카페인, 테오필린 및 티미딘, 및 이들의 유사체 및 유도체.
부가적 PARP 억제제들이 예를 들어 [US 6,635,642, US 5,587,384, WO 2003080581, WO 2003070707, WO2003055865, WO 2003057145, WO 2003051879, US 6514983, WO 2003007959, US 6426415, WO 2003007959, WO 2002094790, WO 2002068407, US 6476048, WO 2001090077, WO 2001085687, WO 2001085686, WO 2001079184, WO 2001057038, WO 2001023390, WO 2001021615, WO 2001016136, WO 2001012199, Banasik 등, J. Biol. Chem., 267: 3, 1569-75(1992), Banasik 등, Molec. Cell. Biochem. 138: 185-97(1994)), Cosi(2002) Expert Opin. Ther. Patents 12(7), 및 Southan & Szabo(2003) Curr Med Chem 10 321-340 및 그 안의 참고문헌들]에 기재되어 있다.
적당한 PARP 억제제의 한 바람직한 부류는 W0 02/36576에 기재된 것과 같은 1(2H)-프탈라지논 및 이들의 유도체와 같은 프탈라지논을 포함한다. 특히, 하기 화학식의 화합물:
[식 중에서, A 및 B는 함께 임의 치환된, 융합된 방향족 환을 나타내고;
Rc은 -L-RL(식 중에서, L은 화학식
-(CH2)n1-Qn2-(CH2)n3-(식 중에서, n1, n2 및 n3은 0, 1, 2 및 3으로부터 선택되고, n1, n2 및 n3의 합은 1, 2 또는 3이며, Q는 O, S, NH, C(=O) 또는 -CR1R2-(식 중에서, R1 및 R2는 수소, 할로겐 또는 임의 치환된 C1-7 알킬로부터 독립적으로 선택되거나, 그것들이 결합되어 있는 탄소 원자와 함께 포화될 수 있는 C3-7 시클릭 알킬기(C3-7 시클로알킬기) 또는 불포화될 수 있는 C3-7 시클릭 알킬기(C3-7 시클로알케닐기)를 형성할 수 있거나, R1 및 R2 중 하나는 RL 내의 원자에 결합되어, R1 및 R2가 Q, -(CH2)n3-(존재하는 경우에 한함), 및 RL의 부분에서 결합하고 있는 탄소 원자를 포함하는 불포화 C3-7 시클로알케닐기를 형성할 수 있음)이고; RL은 임의 치환된 C5-20 아릴이며;
RN은 수소, 임의 치환된 C1-7 알킬, C3-20 헤테로시클릴, 및 C5-20 아릴, 히드록시, 에테르, 니트로, 아미노, 아미도, 티올, 티오에테르, 술폭시드 및 술폰으로부터 선택된다))에 의해 표시된다]
및 이의 이성체, 염, 용매화물, 화학적으로 보호된 형태, 및 프로드러그가 PARP의 억제를 위해 사용될 수 있다.
바람직하게 화학식:
(식 중에서, A 및 B는 함께 임의 치환된, 융합된 방향족 환이고;
Rc은 -CH2-RL이며;
RL은 임의 치환된 페닐이고;
RN는 수소이다)
의 화합물, 또는 이들의 이성체, 염, 용매화물, 화학적으로 보호된 형태, 또는 프로드러그가 PARP의 억제를 위해 사용된다.
예컨대 PARP를 억제하기 위한 다른 후보 화합물은, 성분의 3차원 구조를 모델링하고, 특별한 분자 모양, 크기 및 전하 특성을 후보 화합물에 제공하기 위한 합리적인 약물 설계에 기초할 수 있다. 예를 들어, 후보 억제제는 성분을 억제하는 펩티드 단편 또는 기타 "기능적 유사체"일 수 있다. 기능적 유사체는 문제의 펩티드 또는 기타 화합물과 동일한 기능적 활성을 가지며, 즉 그것은 DNA 수복 경로 성분의 상호작용 또는 활성에 간섭할 수 있다. 그러한 유사체의 예에는 다른 한 성분과 접촉하는 부위 내의 성분의 3차원, 특히 핵심 아미노산 잔기의 그것이 나타날 때의 배치를 닮도록 모델링된 화학적 화합물들이 포함된다.
예컨대 PARP의 아미노산 서열(Acc No: NM001618)의 부분 또는 전부, 또는 이의 상보체를 코딩하는 핵산이 포함된다.
예를 들어, PARP 활성의 억제는 통상적 방법을 이용하여, 예를 들어 도트 블로트(Affar EB 등, Anal Biochem. 1998; 259(2): 280-3), 및 예를 들어 PARP 활성에 의해 형성된 중합체 사슬에 대한 삼중점 기질 NAD 또는 특정 항체를 이용한 방사능을 이용함에 의해 폴리ADP-리보스 사슬을 형성하는 PARP의 직접적 활성을 측정하는 BER 검정(K. J. Dillon 등, Journal of Biomolecular Screening, 8(3): 347-352(2003)에 의해 결정될 수 있다.
예를 들어, PARP 발현은 안티-센스 또는 RNAi 기술을 이용하여 억제될 수 있다. 유전자 발현을 하향 제어하는 이 접근법의 이용은 지금 당업계에 잘 확립되어 있다.
안티-센스 올리고뉴클레오티드는 핵산, 프리-mRNA 또는 mRNA의 상보적인 서열에 혼성화하여, 염기 절제 수복 경로 성분의 생산을 간섭함으로써, 그것의 발현을 감소시키거나, 완전히 또는 실질적으로 완전히 방지하도록 설계된다. 표적화 코딩 서열에 부가하여, 안티-센스 기법을 사용하여, 예컨대 5'-이웃 서열 내의, 유전자의 대조군 서열을 표적으로 함으로써, 안티-센스 올리고뉴클레오티드가 발현 대조군 서열을 간섭할 수 있도록 할 수 있다. 안티-센스 서열의 구축 및 그것의 용도가 예를 들어, [Peyman 및 Ulman, Chemical Reviews, 90: 543-584(1990) 및 Crooke, Ann. Rev. Pharmacol. Toxicol. 32: 329-376, (1992)]에 기재되어 있다.
올리고뉴클레오티드는 투여를 위해 생체내 또는 생체외에 발생될 수 있거나, 안티-센스 RNA가 하향 제어가 요망되는 세포 내에서 생체내 발생될 수 있다. 이에 따라, 이중 나선의 DNA는 "역방향의 프로모터의 조절 하에 놓임으로써, DNA의 안티-센스 나선의 전사가 표적 유전자의 센스 나선으로부터 전사된 정상 mRNA에 대해 상보적인 RNA를 생산하도록 할 수 있다. 이에, 상보적인 안티-센스 RNA 서열은 mRNA와 결합하여, 이중선을 형성하고, 이에, 내인성 mRNA의 표적 유전자에서 단백질로의 번역을 억제하는 것으로 사료된다. 이것이 실질적 작용 방식인지 아닌지의 여부는 아직 불확실하다. 그러나, 그 기법이 작용한다는 것은 확립된 사실이다.
역방향의 코딩 서열에 상응하는 완전한 서열은 사용될 필요가 없다. 예를 들어, 충분한 길이의 단편이 사용될 수 있다. 당업자가 안티-센스 억제의 수준을 최적화하기 위해 코딩 또는 이웃 유전자의 각종 부분들로부터의 각종 크기의 단편을 선별하는 것은 통상적이다. 개시 메티오닌 ATG 코돈, 및 아마도 그 개시 코돈의 상류에 있는 하나 이상의 뉴클레오티드를 포함하는 것이 유리할 수 있다. 한 적당한 단편은 약 14 내지 23개 뉴클레오티드, 예컨대 약 15, 16 또는 17개 뉴클레오티드를 가질 수 있다.
안티-센스에 대한 한 대안은, 표적 유전자와 동일한 방향인 센스에 삽입된 표적 유전자의 전부 또는 부분의 복사체를 사용하여, 동억제에 의해 표적 유전자의 발현을 달성하는 것이다; Angell & Baulcombe(1997), The EMBO Journal 16, 12: 3675-3684; 및 Voinnet & Baulcombe(1997) Nature 389: pg 553). 이중 나선의 RNA(dsRNA)는 양 센스 또는 안티센스 나선 단독보다 유전자 침묵에 더욱 더 효과적인 것으로 나타났다(Fire A. 등, Nature 391, (1998)). dsRNA 매개 침묵은 유전자 특이적이고, 종종 RNA 간섭(RNAi)으로 칭해진다.
RNA 간섭은 2-단계 공정이다. 첫 번째로, dsRNA는 세포 내에서 절단되어, 5' 말단 인산염 및 3' 짧은 오버행(~2nt)을 갖는, 약 21 내지 23 nt 길이의 짧은 간섭 RNA(siRNA)를 생성시킨다. siRNA는 파괴에 대해 특이적으로 상응하는 mRNA 서열을 표적으로 한다(Zamore P. D. Nature Structural Biology, 8, 9, 746-750, (2001)).
RNAi는 또한 3'-오버행 말단을 갖는 동일 구조의 화학적으로 합성된 siRNA 이중체를 이용하여 효율적으로 유도될 수 있다(Zamore PD 등, Cell, 101, 25-33, (2000)). 합성 siRNA 이중체는 광범위한 포유동물 세포주들에 있어 내인성 및 이질성 유전자의 발현을 특이적으로 억제하는 것으로 나타났다(Elbashir SM. 등, Nature, 411, 494-498, (2001)).
다른 한 가능성은, 핵산이 특정 부위에 핵산을 절단할 수 있는 리보자임을 전사 시에 생성하여, 이에 따라 유전자 발현에 영향을 줌에 있어서도 유용하다는 것이다. 리보자임에 대한 배경 참고문헌에는 [Kashani-Sabet 및 Scanlon, 1995, Cancer Gene Therapy , 2(3): 213-223, 및 Mercola 및 Cohen, 1995, Cancer Gene Therapy, 2(1), 47-59]이 포함된다.
본 발명의 방법은 개체에게 PARP 억제제를 투여하는 것을 포함할 수 있다. 이는 개체가 HR 의존성 DNA DSB 수복이 결핍된 암 상태를 갖는 것으로 확인함에 후속하여 일어날 수 있다.
본 발명에 있어서, 상기 PARP 저해제는 PARP 효소의 활성을 저해할 수 있는 물질이면 모두 가능하나, 바람직하게는 AZD2281(올라파립, Olaparib), ABT888(벨리파립, Veliparib), AG014699(루카파립, Rucaparib), MK-4827(니라파립, Niraparib), BMN-673(탈라조파립, Talazoparib), BSI201(이니파립, Iniparib), BGP15(O-(3-piperidino-2-hydroxy-1-propyl)nicotinicamidoxime),INO1001(3-Aminobenzamide), ONO2231, 니코틴아미드(nicotinamide), 3-아미노벤즈아미드(3-aminobenzamide), ,4-디히드로-5-[4-(1-피페리디닐)부톡시]-1(2H)-이소퀴놀론(3,4-dihydro-5-[4-(1-piperidinyl)butoxy]-1(2H)-isoquinolone), 벤즈아미드(benzamide), 퀴놀론(quinolone), 이소퀴놀론(isoquinolone), 벤조피론(benzopyrone), 사이클릭 벤즈아미드(cyclic benzamide), 벤즈이미다졸(benzimidazole), 인돌(indole) 및 펜안트리디논(phenanthridinone)으로 구성된 군에서 선택되는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명의 일 실시형태에서 PAPR 저해제는 탈라조파립의 토실레이트 염이다. 탈라조파립은 아래에 나타낸 구조를 가진다:
C. PARP 저해제 동반진단을 위한 유전자
1. PARP 저해제 저항성 유전자
MAD2L2
MAD2L2의 결핍은 PARPi 저항성과 관련이 있는 것으로 알려져 있다(Xu et al., 2015)
TP53BP1
TP53BP1는 DNA 이중가닥 절단 복구 경로를 선택하고, NHEJ 경로를 촉진하며, HR 기능을 제한하는 기능을 하며, TP53BP1의 감소는 BRCA1이 결핍된 mouse 종양에서 PARPi에 대한 저항성을 유발하여(Jaspers et al., 2013) ATM가 결핍된 종양 환자에서 PARPi 내성의 예측인자인 것으로 알려져 있다(Hong et al., 2016).
XRCC5
XRCC5는 NHEJ에 의한 DNA 이중가닥 손상 복구의 기능을 하며(Weterings et al., 2016) BRCA1 변이가 있는 난소암 환자에서 miR-622으로 인해 XRCC5의 발현이 감소되면 PARPi 와 cisplatin 의 내성을 유도시키는 것으로 알려져 있다(Choi et al., 2016)
XRCC6
XRCC6는 XRCC5와 복합체를 이루어 이중가닥 손상 복구, V(D)J 재조합에 필요한 것과 같은 비상동성 DNA 말단의 수리에 관여하며, BRCA1 변이가 있는 난소암 환자에서 miR-622으로 인해 XRCC6의 발현이 감소되면 PARPi 와 cisplatin 의 내성을 유도시키는 것으로 알려져 있다(Choi et al., 2016)
SLFN11
SLFN11 발현은 talazoparib이 단독으로 사용되거나 temozolomide 와 함께 사용될 때 소세포 폐암 세포에 대하여 민감성과 관련이 있으며 (Murai et al., 2016), SLFN11의 소실은 소세포 폐암에서 talazoparib에 대해 저항성을 부여하는 것으로 알려져 있다(Lok et al., 2017)
2. PARP 저해제 민감성 유전자
BRCA1/2
BRCA1은 상동재조합의존성 DNA 이중가닥절단 복구를 위한 유전적 안정성을 유지하며, 종양억제제로써 역할도 하며, 특히 BRCA1 의 결손이나 돌연변이는 PARP inhibitor 에 대하여 민감성을 보이며, RBBP8, CHEK2, BRIP1, FANCD2, PALB2, BRCA2 등의 유전자와 상호작용을 하는 것으로 알려져 있다.
BRCA2는 상동재조합의존성 DNA 이중가닥절단 복구를 위한 유전적 안정성을 유지하며, BRCA2의 결손이나 돌연변이는 PARP inhibitor 에 민감성을 보이며, BRCA1, RAD51, PALB2 등의 유전자와 상호작용을 하는 것으로 알려져 있다.
여러 종류의 DNA 손상 중에서 DNA 이중 가닥이 절단(DNA double-strand breaks) 되었을 경우, 세포는 비상동단말연결 (nonhomologous end-joining (NHEJ))과 상동재조합 (homologous recombination (HR))을 이용해 손상된 DNA를 복구한다. 비상동단말연결(NHEJ) 은 절단된 두가닥의 DNA를 인지하고 DNA 연결효소 (ligase)를 이용해 붙이기 때문에 일반적으로 DNA 정보의 변화를 초래하고 염색체의 결실 (deletion)이나 전좌(translocation)를 일으킨다. 이에 반해, 상동재조합 (HR)은 손상되지 않은 homologous sister chromatid의 정보를 이용하여 손상된 부위의 DNA를 복구 하기 때문에 정확한 DNA 복구를 수행한다. 그러므로 상동재조합 (HR)은 유전체 올바른 보전을 위해 중요한 역할을 담당한다. BRCA1과 BRCA2 단백질은 상동재조합 (HR)을 통한 DNA 이중 가닥의 절단을 복구 하는데 과정에 중요한 역할을 하는 것으로 알려졌다. BRCA1 은 절단된 DNA 부위에 abraxas-RAP80 macro-complex와 함께 결합하고, CtIP와MRN complex와의 상호 작용을 통해 DNA resection에 관여하여 손상된 DNA가 상동재조합 (HR)을 통해 복구가 될 수 있도록 도와준다. BRCA1은 상동재조합 (HR)에 있어서의 중추적 역할을 하는 단백질인 RAD51이 손상된 DNA 부위에 모이게 하는 역할을 하는데 이 과정에는 PALB2 (Partner and Localizer of BRCA2) 와 BRCA2와의 상호작용이 필요하고, 이는 CHK2에 의한 BRCA1의 988th Serine에 인산화가 중요하다. BRCA1은 상동재조합 (HR) 뿐만 아니라 DNA 손상을 감지 하거나 이에 대한 세포내 반응에 관여하는 것으로도 알려졌는데, 이는 세포 주기 조절에 관여하는 단백질들이나 다른 DNA 복구에 관여하는 단백질들과의 상호작용을 통해 이루어진다.
BRCA2는 RAD51 결합할 수 있는 8개의 BRCrepeats 과 DNA에 결합하는 부위를 가지고 있다. BRCA2의 DNA 결합 부위는 단일 가닥 및 이중 가닥의 DNA에 결합할수 있는 구조로 되어 있어 BRCA2가 손상된 DNA에 위치하도록 하고, BRC repeats를 통해서는 RAD51을 손상된 DNA에 전달하는 역할을 한다. BRCA2는 3418개의 아미노산을 가진 거대한 단백질로 정제가 어려워 그동안 BRCA2의 부위들만을 가지고 연구가 진행되었는데, 최근에 전체 길이의 BRCA2 단백질이 성공적으로 정제되어 보다 자세한 연구가 진행되었다. BRCA2는 상동재조합 (HR) 과정중에 DNA resection의 결과로 나타나는 RPA가 결합된 단일 가닥의 DNA에 RPA 대신에 RAD51가 결합되도록 촉매 작용하여 성공적으로 상동재조합 (HR) 가 일어나도록 하는 것으로 밝혀졌다.
BARD1
BARD1은 BRCA1의 N-말단과 상호작용을 하며, PARP inhibitor의 민감성에도 영향을 주는 것으로 알려져 있다(Peng et al., 2019).
PALB2
PALB2는 종양 억제에 작용할 수 있으며, BRCA2 와 결합하여 핵 내에서 위치하며, PALB2 변이는 olaparib 치료에 대하여 민감하며, BRCA1/2와 유사한 기능을 나타내며(Thales et al., 2017), BRCA1, BRCA2, RAD51C 등의 유전자와 상호작용하는 것으로 알려져 있다.
RAD51
RAD51은 BRCA2에 의해 세포 내 위치와 DNA 결합능력이 조절되며, olaparib 과 상관관계가 있는 것으로 알려져 있다.
ATM
ATM은 신호전달 경로상 종양 억제 단백인 p53과 BRCA1 등의 하위 신호 분자들의 조절자로서 역할을 하며, ATM이 결핍된 경우 olaparib에 민감한 것으로 알려져 있다(Montani et al., 2013)
ATR
ATR는 세린/트레오닌 키나제 (serine/threonine kinase) 이자 DNA 손상 감지자 이며, DNA 스트레스 상황에서 세포 주기의 체크포인트 신호를 활성화 시키며, ATR의 손실 시 PARPi에 민감한 것으로 알려져 있다 (Rimar et al., 2017).
RAD51B
RAD51B는 RAD51B 변이가 PARPi에 민감한 것으로 알려져 있다(Romeo et al., 2018).
RAD51C
RAD51C는 결핍 시 olaparib에 매우 민감하며, 항암효과를 예측하는 바이오마커로 간주되고 있다(Min et al., 2013).
NBN
NBN은 이중가닥 손상 복구 복합체 MRE11/RAD50의 구성원이며, DNA 이중가닥 절단 복구에 관여하는 것으로 여겨지고 있으며, NBN의 변이나 결실은 BRCAness 표현형을 유도하는 것으로 알려져 있다(Rowe and Glazer 2010).
FANCA/FANCD2
FANCA와 FANCD2의 결핍은 PAPR 저해제인 KU0058684와 KU0058948에 민감한 것으로 알려져 있다(McCabe et al., 2006)
FANCM
FANCM의 결핍은 PARP 저해제에 민감한 것으로 알려져 있다(Stoepker et al., 2015).
FANCI
FANCI는 DNA 손상 부위에서 Fanconi Anemia의 핵심 복합체 모집을 조절하는 것으로 알려져 있다(Castella et al., 2015).
STK11
STK11은 세포의 극성을 조절하고, 종양 억제제로 역할을 나타내며 STK11 의 결핍은 PARPi에 민감한 것으로 알려져 있다(Wang et al., 2016)
MRE11
MRE11은 상동재조합의존성 DNA 이중가닥손상 복구경로에 관여하는 핵단백질이며, MRE11의 손실은 PARPi 에 매우 민감한 것으로 알려져 있다(Romana et al., 2014)
RAD50
RAD50은 이중가닥 손상 복구, DNA 재조합, telomere 유지에 중요한 역할을 하는 MRN (MRE11-RAD50-NBN) 복합체의 구성요소이며, RAD50 발현량에 따라 olaparib의 반응에 영향을 주는 것으로 알려져 있다 (Zhang et al., 2016).
RAD51D
RAD51D는 2차 돌연변이를 갖는 RAD51D 변이는 PARPi 에 대한 내성이 있는 것으로 알려져 있다(Kondrashova et al., 2017)
CHEK2
CHEK2는 세포 주기 체크포인트 조절자이며, 종양 억제제로 추정되고 있으며, CHEK2의 손실은 talazoparib에 의해 유도된 세포 생존능력의 감소에 영향을 주는 것으로 알려져 있다 (Engert et al., 2017).
CDH1
CDH1은 세포-세포간 유착, 이동성 및 세포 증식을 조절하는 매커니즘에 관여하지만, 기능이 소실되었을 때는 암의 진행에 기여하는 것으로 알려져 있다.
RBBP8
RBBP8은 BRCA1과 동일한 경로에서 작용하며 종양억제제일 수 있으며, RBBP8의 손실은 상동재조합 의존성 DNA 이중가닥손상 복구를 방해하고, 유방암 세포가 olaparib에 민감하게 하며(Wang et al., 2015), BRCA1, MRN 복합체, MRE11, RAD50, NBN 등과 상호작용 하는 것으로 알려져 있다.
BRIP1
BRIP1은 BRCA1의 BRCT domain과 상호작용 하며, BRIP1에서 발생한 단백 절단 변이는 난소암의 위험성과 상관관계가 있는 것으로 알려져 있다(Ramus et al., 2015).
PTEN
PTEN은 종양억제제로 호모자이고스(homozygous) 변이 발생 시 PARPi 에 민감하게 반응하고 (Ana et al., 2009), 인산화된 PTEN은 STK11과 상호작용하는 것으로 알려져 있다.
BLM
BLM은 유비퀴틴화된 FANCD2와 상호작용하는 것으로 알려져 있다.
TP53
TP53은 종양 억제 단백질을 암호화하며, p53의 변이는 다양한 암종과 관련이 있으며, BRCA2, TP53, PTEN 모두 결실된 마우스 유래 세포에서 olaparib에 민감한 반응을 보이며(Baldwin et al., 2019) TP53의 단백 절단 변이는 BRCA1 결실에 의한 유전적 불안정성의 직접적인 결과일 수 있는 것으로 제안되었다 (Holstege et al., 2010).
CDK12
CDK12 발현이 억제되었을 때 종양 부피에 대해 명확한 olaparib의 억제 효과가 나타나는 것이 알려져 있다.
EMSY
EMSY는 BRCA2와 상호작용을 통해 BRCA2의 DNA 복구 기능에 중심적인 역할을 할 수 있으며, EMSY 가 증폭될 경우 rucaparib에 대한 민감성과 관련이 있으며, PALB2와 BRCA2 결합 부위를 공유하는 것으로 알려져 있다(Xia et al., 2006).
FANCF
FANCF의 불활성화는 BRCAness 표현형 또는 PARPi 민감성으로 연관이 있으며, Fanca, Fancc 및 Fancg와 상호작용하여 FA DNA 복구 경로의 핵심 구성요소인 Fanca, Fancc를 안정화시키는 것으로 알려져 있다.
ERCC1
ERCC1는 핵산 절단 복구 경로에서 역할을 하며, ERCC1과 BRCA1이 동시에 결핍됐을 경우, platinum 치료와 PARPi 에 민감한 것으로 알려져 있다.
XRCC1
XRCC1은 DNA ligase III, polymerase-beta, PARP와 상호작용하여 BER 경로에 작용하며, PARPi는 DNA 손상부위에서 BER effector인 XRCC1과 NHEJ 매개체인 XRCC4, Ku70/80 의 모집을 방해하는 것으로 알려져 있다(Chandra et al., 2017).
D. Biallelic Genetic Impairment (BGI) 판단 기준 및 예시
본 발명에서 Biallelic Genetic Impairment (BGI)의 양성 및 음성의 판단은 이배체의 경우 양쪽 대립유전자(both allele)에서 발생한 변이의 유무를 확인하여 이루어질 수 있다.
Biallelic Genetic Impairment (BGI) 양성
본 발명에서 BGI 양성(BGI+)은 상동재조합(Homologous recombination)의 결핍이 있는 경우를 의미하며, PARP 저해제를 처리할 경우, 감응성이 높게 나타날 것으로 예상되는 시료를 의미한다.
Biallelic genetic impairment (BGI) 는 아래와 같은 상황(Mechanisms)을 만족할 경우를 지칭하며, NGS 분석에 사용된 종양 조직의 종양분율 정보 및 PARP 저해제 민감성 유전자들의 Allele Frequency (variant allele frequency) 정보를 이용하여 평가할 수 있다.
1. 어떠한 유전자의 두 개의 allele 중 하나의 allele에 유전적(germline) 돌연변이가 존재하면서, 동일한 유전자의 다른 하나의 allele에 체세포성(somatic) 돌연변이가 존재하는 경우
2. 어떠한 유전자의 두 개의 allele 중 하나의 allele에 유전적(germline) 돌연변이가 존재하면서, 동일한 유전자의 다른 하나의 allele에 macro-deletion (> 15Kb) 이 존재하는 경우
3. 어떠한 유전자의 두 개의 allele 중 하나의 allele에 유전적(germline) 돌연변이가 존재하면서, 동일한 유전자의 다른 하나의 allele에 epigenetic silencing 이 존재하는 경우
4. 어떠한 유전자의 두 개의 allele 중 하나의 allele에 체세포성(somatic) 돌연변이가 존재하면서, 동일한 유전자의 다른 하나의 allele에도 체세포성(somatic) 돌연변이가 존재하는 경우
5. 어떠한 유전자의 두 개의 allele 중 하나의 allele에 체세포성(somatic) 돌연변이가 존재하면서, 동일한 유전자의 다른 하나의 allele에 macro-deletion (> 15Kb) 이 존재하는 경우
6. 어떠한 유전자의 두 개의 allele 중 하나의 allele에 체세포성(somatic) 돌연변이가 존재하면서, 동일한 유전자의 다른 하나의 allele에 epigenetic silencing 이 존재하는 경우
7. 어떠한 유전자의 두 개의 allele 모두에서 macro-deletion (> 15Kb) 이 존재하는 경우
8. EMSY 유전자에 대하여 copy-number amplification 이 존재하는 경우
위의 상황에 대하여 유전적(germline) 돌연변이는 다음과 같이 정의한다. 유전적 돌연변이는 혈액을 이용한 유전적 검사를 통하여 확인된 돌연변이로써, 1000genome 과 COSMIC database 에서 제공하는 정보에 의하여 SNV 또는 INDEL 으로 확인되는 변이를 지칭한다. SNV 는 deleterious mutation 인 변이를 말하며, Frameshift, Nonsense, splice-site variants (2 ~ 5bp) 변이를 포함한다. INDEL 은 유전자 내에 30bp 이하의 염기서열이 삭제되거나 삽입되어 유전자의 원래의 기능을 못하는 경우를 일컫는다.
위의 상황에 대하여 체세포성(somatic) 돌연변이는 다음과 같이 정의한다. Somatic 돌연변이는 조직을 이용한 유전적 검사를 통하여 확인된 돌연변이로써, SNV 또는 INDEL 으로 확인되는 변이를 지칭한다. 확인된 변이 중 다음의 과정을 거쳐 병원성 변이로 선정한다.
- 각각의 exon 에 대해, Cas9 / gRNA 을 이용하여 100 bp 이내에 존재하는 모든 SNV 를 포함하는 플라스미드 라이브러리를 제작한다(SNV 라이브러리).
- SNV 라이브러리를 HAP1 세포에 형질 전환시키며, 형질 전환이 성공적으로 된 세포는 하나의 SNV 만을 가지게 되어 운반할 수 있게 된다.
- 형질 전환된 세포에서 유전자의 기능을 손상시키는 SNV를 선택하고, 해당 SNV가 mRNA 생성에도 영향을 미치는 경우 병원성 변이로 선별한다.
위의 상황에 대하여 epigenetic silencing은 다음과 같이 정의한다. Epigenetic silencing은 RNA 의 발현량이 저하된 단계로, RNA 패널을 이용하여 유전자의 발현이 감소되었음을 coverage depth 로 확인한다. 발현양의 저하는 exon의 결실, 병원성 변이를 원인으로 들 수 있다.
위의 내용에 대하여 macro-deletion은 다음과 같이 정의한다. Macro-deletion은 혈액 및 조직을 이용한 유전적 검사를 통하여 15Kb 이상에 해당하는 영역의 염기서열이 삭제된 변이를 지칭한다. 삭제된 염기서열의 확인은 Coverage 로 확인한다. 일정 수준으로 유지되는 coverage가 절반 이하(0.4~0.6배)로 감소하였을 경우 macro-deletion 영역(heterozygosity)으로 판단한다.
이에 대하여 패널의 각 유전자는 다음의 상황을 하나라도 만족 할 때 BGI 로 분류된다.
구체적으로, Biallelic genetic impairment는 아래와 같이 정의한다.
종양 조직 내의 하나의 allele 에만 genetic impairment 가 존재하는 경우를 one allele impairment라 한다. 이 때, one allele impairment는 Wild-type을 포함하는 전체 allele 개수에서 변이가 존재하는 한 개의 allele만을 나타내는 비율로서, 으로 계산된다. 이 때, a는 변이를 가지는 allele이며, 상수 200은 종양 내의 전체 allele의 status (100%, tumor + normal cell) x 2개의 allele으로 계산된 값이다.
BGI를 갖는 세포가 있고 그 세포에서 한쪽 allele에 대한 변이의 비율은 로 정의할 수 있고, BGI를 갖는 세포가 T개 있을 경우, 로 정의될 것이다. 만약, BGI 가 나타난다면 최소한 보다 클 것이다. 즉, Biallelic genetic impairment ≥ 으로 정리할 수 있다.
한편, 상동재조합 유전자에 Biallelic genetic impairment가 존재할 경우에 PARP 저해제 민감성 유전자들의 Allele Frequency (variant allele frequency) 정보를 다음과 같이 활용할 수 있다.
하지만 Allele frequency는 전체 read count에 대한 alternative allele의 read count의 비율을 계산한 값이기 때문에 아래 수식 1과 같이 보정할 필요가 있다.
Biallelic genetic impairment를 판단하기 위해서는 추가적으로 Standard Tumor Fraction을 확인해야 한다. Standard Tumor Fraction 은 조직 단위에서 allele frequency를 계산한 것으로, 전체 조직 중에서 종양 조직이 가지는 대립 유전자의 비율을 의미하며, 다음과 같이 계산한다.
예를 들어, 조직 검사 또는 수술 등으로 수득한 전체 샘플에서 종양 조직이 차지하는 비율을 계산할 수 있다. 이는 곧 종양 조직의 세포 수로 치환될 수 있는데 상기에 기재한 바와 같이 BGI를 갖는 종양 세포가 T개 있을 경우, 로 정의될 수 있으며 BGI 가 나타난다면 최소한 보다 큰 값이 도출될 수 있다.
이와 같이 계산된 Standard Tumor Fraction 은 BGI를 가질 수 있는 확률의 최소값을 나타내며, 이 값을 평가 대상자들의 PARP 저해제 민감성 유전자들의 Adj. AF 와 비교하여 BGI를 판단할 수 있다.
즉, 대상자의 Adj. AF는 NGS를 기반으로 생성한 리드 데이터를 분석하여 도출한 대립유전자 빈도이고, Standard Tumor Fraction은 실제 조직 샘플에서 종양 조직이 가지는 대립유전자 빈도를 의미한다. 따라서, Adj. AF가 standard tumor fraction 보다 높을 경우 양쪽 대립유전자에 결함이 있는 것으로 판단할 수 있고, 그렇지 않을 경우에는 one allele impairment 또는 WT으로 판단할 수 있다.
Adjusted Allele Frequency ≥ Standard Tumor Fraction
예를 들어, Tumor % 가 80%인 검체에서 Standard Tumor Fraction 은 67% 로 산출이 되는데, 이 때의 대상자의 Adj. AF 가 73% 일 경우, Adj. AF 값이 Standard tumor fraction 보다 큰 값이기 때문에 BGI 양성으로 판단한다.
Standard Tumor Fraction 은 아래의 표 4를 참고할 수 있다.
Biallelic Genetic Impairment (BGI) 음성
본 발명에서 BGI 음성(BGI-)은 상동재조합(Homologous recombination)의 결핍이 없거나 결핍이 있더라도 동시에 저항성 유전자에 변이가 있는 경우를 의미하며, PARP 저해제를 처리할 경우, 감응성이 없을 것으로 예상되는 시료를 의미한다.
본 발명에서는 다음에 해당하는 경우 BGI 음성으로 정의한다:
9. 저항성 유전자 중 하나의 유전자에서 대립유전자의 어느 한쪽에서만 변이가 발생한 경우
10. 모든 저항성 유전자의 대립유전자 어디에도 변이가 발생하지 않고 모든 민감성 유전자의 대립유전자 어디에도 변이가 발생하지 않은 경우
11. 모든 저항성 유전자의 대립유전자 어디에도 변이가 발생하지 않고 민감성 유전자의 변이가 대립유전자 한 쪽에서만 발생한 경우
12. 저항성 유전자 중 하나의 유전자에서 대립유전자의 어느 한쪽에서 변이가 발생하고 민감성 유전자에서 BGI 가 발생한 경우
본 발명에서는 PARP 저해제의 동반진단을 위해 민감도와 정확도가 높은 유전자 마커를 발굴하여 그 효과를 확인하고자 하였다.
본 발명에서는 기존에 분석 정리된 유방암 환자의 돌연변이 정보와 복제수 변이 정보를 바탕으로 민감도와 정확도가 높은 유전자 마커를 발굴하여 그 효과를 확인하였다.
즉, 본 발명의 일 실시예에서는 The Cancer Genome Atlas (TCGA, https://portal.gdc.cancer.gov/)에서 1,098 명의 유방암 환자들(TCGA-BRCA)의 돌연변이(SNV) 정보와 복제수 변이(CNV) 정보를 다운받아 변이 정보를 분석하여 ‘유해한 변이(deleterious mutation)’ 및 ‘복제수 변이(copy number alteration)’를 조사하였다.
먼저, 다음 조건을 모두 만족하는 경우에 ‘유해한 변이’로 분류하였다.
i. 변이의 유형이 단백절단변이(protein truncating alterations), 접합부위변이, 및 프레임이동 변이(frameshift alterations) 으로 구성된 변이;
ii. coverage depth 가 2 이상 (Pred score ≥ 25)인 변이; 및
iii. variant allele frequency (VAF) 값이 30% 이상
다음으로, 복제수 변이(copy number alteration, CNA)는 TCGA에서 제공해주는 값들에 대하여 다음과 같이 점수를 매겼다:
i. 0 : 복제수 변이가 없는 경우,
ii. -1 : heterozygous copy number deletion으로, 대립유전자 한쪽에 복제수 결실 변이가 있는 경우
iii. -2 : homozygous copy number deletion으로, 대립유전자 양쪽에 복제수 결실 변이가 있는 경우
iv. 1 : heterozygous copy number amplification으로, 대립유전자 한쪽에 복제수 증폭 변이가 있는 경우
v. 2 : homozygous copy number amplification으로, 대립유전자 양쪽에 복제수 증폭 변이가 있는 경우
그 다음, 상기 ‘유해한 변이’ 및 ‘복제수 변이’ 조사 결과에 바탕하여 BGI을 판단하였다
한 환자의 한 유전자 내에서
i. ‘유해한 변이’가 대립유전자의 한쪽에 나타나고 다른 한쪽에 heterozygous copy number deletion (copy number variant, CNV = -1)이 나타나거나 혹은
ii. ‘유해한 변이’는 없으나 대립유전자의 양쪽에 ‘복제수 결핍 변이’(homozygous copy number deletion (-1< CNV ≤ -2))가 일어난 경우를 상동재조합결핍이 있는 것으로 결정하고, 상기 변이가 있는 환자는 PARP 저해제에 대하여 반응성이 있는 것으로 판단하였다.
한편, Oncogene인 EMSY 유전자(민감성)의 경우에는
i. ‘유해한 변이’와 ‘복제수 증폭 변이’(heterozygous copy number amplification, CNV = 1)가 대립유전자 각각에 나타나는 경우, 그리고
ii. 대립유전자 양쪽에 ‘복제수 증폭 변이’ (homozygous copy number amplification, CNV = 2)가 있는 경우 상동재조합결핍이 있는 것으로 결정하고, 상기 변이가 있는 환자는 PARP 저해제에 대하여 반응성이 있는 것으로 판단하였다.
그 결과, 총 1098명의 유방암 환자 중 510명에서 상동재조합결핍을 확인할 수 있었으며, 이는 단순히 BRCA1/2의 변이정보만 확인할 경우 PARP 저해제에 대하여 반응성이 있는 것으로 결정되는 환자가 동일한 모집단에서 42명밖에 되지 않는 것에 비하여 10배 이상 향상된 효과를 나타낸 것이다.
따라서, 본 발명은 일 관점에서, (a) 환자 유래 핵산 분자를 분석하여 PARP 저해제 저항성 유전자 그룹 및 PARP 저해제 민감성 유전자 그룹의 유전자형(genotype)을 확인하는 단계; 및
(b) PARP 저해제 저항성 유전자 그룹의 모든 유전자에 변이가 없고, PARP 저해제 민감성 유전자 그룹 중 하나 이상의 유전자의 대립 유전자 양쪽(both allele)에서 모두 변이를 나타낼 경우, PARP 저해제에 대한 감수성이 있는 것으로 결정하는 단계를 포함하는 PARP(Poly ADP Ribose Polymerase) 저해제에 대한 감수성(susceptibility) 결정 방법에 관한 것이다.
본 발명에 있어서, 상기 방법은 (i) 상기 PARP 저해제 저항성 유전자 그룹 중 하나 이상의 유전자에 변이가 나타나거나,
(ii) 상기 PARP 저해제 저항성 유전자 그룹의 모든 유전자에 변이가 없고, PARP 저해제 민감성 유전자 그룹 중 하나 이상의 유전자의 both allele에서 모두 변이가 없거나,
(iii) 상기 PARP 저해제 저항성 유전자 그룹의 모든 유전자에 변이가 없고, PARP 저해제 민감성 유전자 그룹 중 하나 이상의 유전자의 single allele에서 변이가 나타날 경우, PARP 저해제에 대한 감수성이 없는 것으로 결정하는 단계;
를 추가로 포함하는 것을 특징으로 할 수 있다.
즉, 본 발명은 각 유전자 그룹의 대립 유전자 양쪽 모두의 변이 유무를 분석하여, PARP 저해제 감수성을 결정하기 때문에 기존의 단순 변이 유무만을 결정하는 방법에 비하여 정확도가 높은 특징이 있다.
본 발명에 있어서, 상기 PARP 저해제 저항성 유전자 그룹은 특정 유전자에 돌연변이가 발생할 경우, PARP 저해제의 효과를 감소시키는 유전자이면 모두 가능하나, 바람직하게는 MAD2L2, TP53BP1, XRCC5, XRCC6 및 SFLN11으로 구성된 군인 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 PARP 저해제 민감성 유전자 그룹은 특정 유전자에 돌연변이가 발생할 경우, PARP 저해제가 암 치료효과를 발생시키게 하는 유전자이면 모두 가능하나, 바람직하게는 BRCA1, BRCA2, BARD1, PALB2, RAD51, ATM, ATR, RAD51C, RAD51B, NBN, FANCA, FANCD2, FANCM, FANCI, STK11, MRE11A, RAD50, RAD51D, CHEK2, CDH1, RBBP8, BRIP1, PTEN, BLM, TP53, CDK12, EMSY, FANCF, ERCC1 및 XRCC1로 구성된 군인 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 변이는 유해한 변이(deleterious mutation) 및 복제수 변이(copy number alteration)를 포함하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 유해한 변이는 i) 코딩 영역 내에서 정상 위치보다 앞선 부위에 정지 코돈이 있는 단백절단변이(protein truncating alterations);
ii) 인트론과 엑손 접합 부위에서 비-동의코돈(non-synonymous codon, 아미노산 서열이 변경됨)이 있는 접합부위변이; 및
iii) 코딩 영역 내에서 염기서열 일부가 삽입 또는 삭제로 인해 코돈이 변경되는 프레임이동 변이(frameshift alterations)를 포함하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 복제수 변이는 1개 이상의 핵산 또는 코돈이 결실되는 복제수 결실 변이(copy number deletion) 및 1개 이상의 핵산 또는 코돈이 증폭되는 복제수 증폭 변이(copy number amplification)를 포함하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 유해한 변이는 염기서열의 치환(substitution), 삽입(insertion), 결실(deletion), 카피수 변경(copy number alteration), 재배열(rearrangement)로 구성된 군에서 선택되는 하나 이상의 방법으로 발생하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (b) 단계에서 PARP 저해제 민감성 유전자의 대립 유전자 양쪽(both alleles)의 변이는 환자 유래 핵산 분자의 biallelic genetic impairment(BGI)를 계산하는 단계를 포함하는 방법으로 검출하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 BGI는 환자 유래 핵산 분자의 종양 분율(standard tumor fraction)과 PARP 저해제 민감성 유전자들의 보정된 대립유전자 빈도(adjusted allele frequency)를 이용하여 계산하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 종양분율은 하기 수식 2로 계산하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 PARP 저해제 민감성 유전자들의 보정된 대립유전자 빈도(adjusted allele frequency)은 하기 수식 1로 계산하는 것을 특징으로 할 수 있다:
여기서, alt allele은 변이가 발생한 대립유전자를 의미한다.
본 발명에 있어서, 상기 BGI는 PARP 저해제 민감성 유전자들의 보정된 대립유전자 빈도(adjusted allele frequency)가 환자 유래 핵산 분자의 종양 분율(standard tumor fraction) 이상일 경우, 1로 계산하고, 미만인 경우 0으로 계산하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (b) 단계에서 PARP 저해제 민감성 유전자의 대립 유전자 양쪽(both alleles)의 변이는 BGI 값이 1일 경우, 대립 유전자 양쪽에 변이가 있는 것으로 결정하고, 0일 경우, 대립 유전자 양쪽에 변이가 없거나, 어느 한쪽에만 변이가 있는 것으로 결정하는 것을 특징으로 할 수 있다.
E. 핵산 분석 방법
상기와 같은 유전자의 변이를 검출하기 위해서 본 발명에서는 유전자 서열에 기반한 공지된 모든 방법을 사용할 수 있다.
1. PCR 기반 분석 방법
PCR을 기초로 한 주요 변이 분석법은 SSCP(Single Strand Conformation Polymorphism), AFLP(Amplified Fragment Length Polymorphism), RFLP(Restriction Fragment Length Polymorphism), RAPD(Random Amplified Polymorphic DNA), AS-PCR(Allele-Specific PCR) 등이 있다.
일 실시형태에서 본 발명은 SSCP(single-strand conformation polymorphism 또는 single-strand chain polymorphism) 방법으로 변이를 분석한다. 상기 방법은 SNP genotyping에 많이 이용되는 방법으로, 특정 실험 조건 하에서 서열의 차이에 의해 유도된 동일 길이의 단일가닥 염기서열의 형태적 차이로 정의된다. 이 특성은 서로 다른 형태에 따라 단편을 분리하는 겔 전기영동에 의해 서열을 구별할 수 있게 한다(Masato Orita, et al., (1989). Proc. Natl. Acad. Sci. USA. 86 (8): 2766-2770). PCR로 해당 부위를 증폭한 뒤 이중나선 DNA를 높은 온도 조건(94℃)에서 변성(denature)시켜 단일가닥(single strand)으로 만든 뒤 빠르게 냉각시켜 단일가닥 서열 특유의 입체구조를 형성하게 한다. 이를 denaturing polyacrylamide gel에서 전기영동 하면 서열 상의 차이가 존재하는 각각의 단일가닥은 서로 다른 이동상을 가지게 된다. 길이가 같더라도 그 안에 서로 다른 염기구조를 가지게 되면 이동상에서 구별이 되므로 샘플 사이의 이동속도를 비교하여 변이를 확인할 수 있다.
다른 실시형태에서 본 발명은 AFLP(amplified fragment length polymorphism) 방법으로 변이를 분석한다. 상기 방법은 1990년대 초 Keygene에 의해 개발되었으며, 결과 데이터는 길이 다형성(length polymorphisms)으로 기록되지 않고, 존재-부존재 다형성(presence-absence polymorphisms)으로 기록된다(Vos P, et al. (November 1995). Nucleic Acids Res. 23 (21): 4407-14). 게놈 DNA를 분해하기 위해 제한효소(restriction enzyme)를 사용하며, restriction fragment의 sticky end에 adaptor를 연결한다. 이어서, restriction fragment의 subset가 증폭되도록 선택된다. 인식부위가 많지 않은 특정 제한효소로 절단된 DNA의 단편들에 adaptor를 붙인 다음, adaptor의 염기서열을 바탕으로 제작된 primer를 사용하여 각 단편들을 증폭시켜 얻어지는 band pattern의 차이를 비교하는 것이다.
AFLP는 randomly amplified polymorphic DNA(RAPD), restriction fragment length polymorphism(RFLP) 및 microsatellites와 같은 다른 마커 기술과 비교할 때 많은 장점이 있다. AFLP는 다른 기술에 비해 전체 게놈 수준에서 더 높은 재현성, 분해능 및 민감도를 가질 뿐만 아니라(Mueller UG, et al., (October 1999). Trends Ecol. Evol. 14 (10): 389-394), 한 번에 50 내지 100개의 단편을 증폭할 수 있는 능력을 가지고 있다. 또한, 증폭을 위해서 이전의 서열 정보가 필요하지 않다(Meudt HM, Clarke AC (March 2007). Trends Plant Sci. 12 (3): 106-17). 다형성이 드문 계통에 적용할 수 있을 뿐 아니라 양 말단의 DNA 염기서열을 알지 못하는 제한효소 단편을 증폭시킬 수 있다는 장점이 있다.
또 다른 실시형태에서 본 발명은 RFLP(restriction fragment length polymorphism)방법으로 변이를 분석한다. 상기 방법은 제한효소(restriction endonuclease) 처리에 의한 DNA fragment 길이 차이를 확인하여 SNP를 typing하는 방법이다. PCR을 통해 증폭된 DNA fragment 상에 존재하는 SNP 부위가 특정 제한효소에 의하여 구별될 수 있는 경우에 이용된다. 증폭된 fragment의 SNP에 의하여 특정 제한효소에 대한 restriction site의 sequence가 달라져 두 SNP allele의 fragment 길이의 차이가 발생하여 agarose gel 상에서 쉽게 확인할 수 있다. 많은 종류의 제한효소가 시판되고 있고 원하는 sequence에 작용하는 인식부위를 찾아주는 software가 web 상에서 무료로 제공되고 있어 손쉽게 이용할 수 있다. 그러나 30~40%의 SNP는 restriction site를 가지고 있지 않은데, 이를 해결하기 위해서 primer 상에 1~2bp의 변화를 주어 실재하지 않는 restriction site를 만들어 typing에 이용하기도 한다(primer mutagenesis).
다른 실시형태에서 본 발명은 RAPD(Random Amplified Polymorphic DNA) 방법을 이용하여 변이를 분석한다. 상기 방법은 PCR의 일종이지만, 증폭되는 DNA 부분은 random이다. 임의의 짧은 프라이머(8~12bp)를 이용하여 상보적인 염기서열에 의해 match되는 부위만을 증폭시키게 된다. 이 방법은 agarose gel에서 나타나는 DNA 절편의 패턴을 조사하면 되기 때문에 매우 간단하다. 하지만 아주 작은 primer 단편들은 DNA에 대해 대략 70%의 상동성만 지니고 있으면 증폭이 가능하기 때문에 극도의 세심한 실험 조건을 필요로 한다. 이런 단점을 극복하기 위해 증폭된 부위의 말단 염기서열을 분석한 다음 특이적인 primer로 재합성하여 사용한다면 재현성에 전혀 문제가 없기 때문에 연관분석 연구에는 충분히 사용할 수 있는 방법이다.
다른 실시형태에서 본 발명은 AS-PCR(allele-specific polymerase chain reaction) 방법으로 변이를 분석한다. 상기 방법은 ethidium bromide로 염색된 agarose 또는 polyacrylamide gel에서 PCR 산물을 분석함으로써 DNA의 임의의 점 돌연변이를 직접 검출할 수 있는 PCR의 응용 방법이다(Luis Ugozzoli, et al., Methods, Volume 2, Issue 1, February 1991, Pages 42-48). PCR 증폭에서 primer의 3’ 말단(end)이 반드시 DNA template와 상보적이어야 한다는 것에 기초하고 있다. A(adenine)과 C(cytosine)의 SNP가 있을 경우 3’ 말단이 A로 끝나는 primer와 C로 끝나는 primer를 제작하여 증폭하게 되면 각각의 primer와 상보적인 DNA만 증폭되므로 SNP typing이 가능해 진다.
다른 실시형태에서 본 발명은 형광 dye를 이용하여 Real-time PCR을 통해 변이를 분석한다.
다른 실시형태에서 본 발명은 GC-tail primer를 이용한 Tm-shift genotyping으로 변이를 분석한다. 상기 방법은 Allele-specific PCR과 유사한 방법으로, 각각의 SNP allele에 specific한 primer와 공통되는 reverse primer로 DNA template를 증폭하게 되면 GC-tail이 붙은 allele은 붙지 않은 allele에 비하여 높은 Tm을 가지게 되기 때문에 이러한 Tm값의 차이를 모니터링하여 SNP typing을 수행한다. Tm 값의 차이는 PCR이 끝난 산물에 천천히 열을 가하게 되면 primer에 표지된 SYBR Green의 fluorescence가 소실되는데, 이를 측정하여 각각의 SNP를 typing하게 된다. 이 방법은 SYBR Green의 형광이 double strand DNA일 때 강하게 나타나며 single strand로 denature 되면서 signal이 점차 약해지는 특성을 이용한 것이다.
다른 실시형태에서 본 발명은 DASH(dynamic allele-specific hybridization) 방법으로 변이를 분석한다. 상기 방법은 mismatch 염기쌍의 불안정성으로부터 기인한 DNA의 용융온도 차이를 이용한다. 한쪽에 biotinylation된 primer를 사용하여 원하는 부위를 증폭시킨 후, strptavidin으로 coating된 well에 immobilization시키고 NaOH를 처리하여 denature시켜 single strand로 만든 다음 biotinylation 되지 않은 strand를 제거하여, allele specific probe를 hybridization 시킨다. SYBR Green(double strand에 specific한 dye)를 첨가한 뒤 1℃ 간격으로 95℃까지 천천히 열을 가하면 염기서열이 완전하게 일치할 경우와 single-base mismatch가 발생했을 때 Tm 값의 차이가 도식적으로 나타나 이를 통해 SNP를 typing하는 방법이다. 검출원리는 마찬가지로 SYBR Green의 형광이 double strand DNA일때 강하게 나타나며 single strand로 denature되면서 signal이 점차 약해지는 특성을 이용한 것이다(Howell WM; et al., (January 1999). Nat. Biotechnol. 17 (1): 87-8).
다른 실시형태에서 Taq DNA polymerase의 5’-nuclease 활성은 SNP 유전형 분석을 위한 TaqMan 분석에 사용된다. TaqMan 분석은 SNP가 존재하는 염기서열 상에 match되거나 match되지 않는 차이를 형광물질을 통해 감별하는 방식이다. PCR 반응과 동시에 수행되며, PCR 반응이 진행됨에 따라 결과를 실시간으로 읽을 수 있다. 이 분석법은 SNP 다형성 부위를 포함하는 영역을 증폭시킬 forward 및 reverse PCR 프라이머를 필요로 한다. Allele discrimination은 SNP 다형성 부위에 혼성화하는 하나 또는 두 개의 allele-specific 프로브와 함께 FRET를 사용하여 달성된다. 프로브는 5’말단에 연결된 fluorophore와 3’말단에 연결된 quencher 분자를 갖는다. 프로브가 손상되지 않은 동안, quencher는 fluorophore와의 근접성을 유지하면서 fluorophore의 신호를 제거한다. PCR 증폭 단계 동안, allele-specific 프로브가 SNP allele와 완벽하게 상보적이라면, 표적 DNA 가닥에 결합할 것이고, PCR 프라이머로부터 DNA를 연장시킴에 따라 Taq polymerase의 5’-nuclease 활성에 의해 분해될 것이다. 프로브의 분해는 quencher 분자로부터 fluorophore의 분리를 초래하여 검출 가능한 신호를 생성한다. 만약 allele-specific 프로브가 완벽하게 상보적이지 않으면, 융해 온도가 낮아져 효율적으로 결합하지 못한다. 이는 nuclease가 프로브에 작용하는 것을 방지한다.
TaqMan 분석은 PCR을 기반으로 하기 때문에 구현하기가 상대적으로 간단하다. TaqMan 분석은 하나의 반응에서 최대 7개의 SNP 검출을 결합시킴으로써 다중화될 수 있다. 그러나 각 SNP에는 고유한 프로브가 필요하기 때문에 TaqMan 분석은 SNP가 얼마나 가까이에 있는지에 따라 제한된다. Microtitre plates에서 많은 동시 반응을 수행하여 분석 규모를 크게 증가시킬 수 있다. 일반적으로 TaqMan은 각 SNP별로 최적의 프로브 및 반응 조건을 설계해야 하기 때문에, 적은 수의 SNP를 조사할 수 있는 등의 적용에 제한이 있다.
다른 실시형태에서 본 발명은 Molecular Beacons을 이용하여 변이를 분석한다. 상기 분자 비콘은 균질 용액에서 특정 핵산의 존재를 보고할 수 있는 올리고뉴클레오타이드 혼성화 프로브이다. molecular beacon은 표적 핵산 서열에 결합할 때 형광이 복원되는 내부적으로 소광된 fluorophore를 갖는 hairpin 형태의 분자이다. Molecular beacons를 통한 SNP 검출은 특별히 조작된 단일 가닥 올리고뉴클레오타이드 프로브를 사용한다. 올리고뉴클레오타이드는 각 말단에 상보적인 영역 및 그 사이에 위치하는 프로브 서열이 존재하도록 디자인된다. 이 디자인은 프로브가 자연 분리 상태의 hairpin 또는 stem-loop 구조를 취할 수 있게 한다. 프로브의 한쪽 말단에는 fluorophore이 부착되어 있고 다른 쪽 끝에는 fluorescence quencher가 부착되어 있다. 프로브의 stem-loop 구조로 인해 fluorophore가 quencher에 근접하고, 분자가 형광을 방출하지 못하게 한다. 분자는 또한 오직 프로브 서열만이 분석에서 사용될 게놈 DNA에 상보적이도록 조작된다. Loop 부분은 target에 특이적인 염기서열(약 10~40base)을 포함하고, 양끝은 각 4~7base의 상보적인 염기서열로 stem이 형성된다. Probe의 5’에는 reporter fluorescent dye가 붙어있고 3’는 universal quencher로 dye가 붙어있는데, loop 부분이 specific target sequence에 hybridization되면 quencher와 reporter fluorescent dye가 분리되어 형광을 나타낸다. Matched sequence와 mis-matched sequence의 이러한 Tm 값의 차이를 측정함으로써 SNP를 typing하는 방법이다.
다른 실시형태에서 본 발명은 OLA(Oligonucleotide Ligase Assay)를 이용하여 변이를 분석한다. 상기 방법에서는 2개의 프로브가 디자인된다. DNA ligase는 직접적으로 인접한 DNA 단편의 5’말단에 DNA 단편의 3’말단을 ligation시키는 것을 촉매한다. 이 메커니즘은 두 개의 프로브를 SNP 다형성 부위에 직접 혼성화함으로써 SNP를 조사할 수 있으므로, 프로브가 표적 DNA와 동일하면 ligation이 발생할 수 있다. OLA에서 디자인되는 2개의 프로브는, 3’염기가 SNP 뉴클레오타이드 바로 위에 위치하도록 표적 DNA에 혼성화하는 allele-specific 프로브 및 ligation 반응을 위한 5’말단을 제공하는 SNP 다형성 부위의 template upstream(downstream in the complementary strand)에 혼성화하는 프로브이다. 만약 allele-specific 프로브가 표적 DNA와 일치하면 표적 DNA에 완전히 혼성화될 것이며, ligation이 일어날 수 있다. 일반적으로 mismatched 3’염기가 존재하는 경우에 ligation은 일어나지 않는다. Ligated 또는 unligated 생성물은 겔 전기영동, MALDI-TOF 질량 분석 또는 대규모 응용을 위한 모세관 전기영동에 의해 검출될 수 있다(Harbron S; Rapley R (2004). Molecular analysis and genome discovery. London: John Wiley & Sons Ltd.). 올리고뉴클레오타이드상의 적절한 서열 및 태그를 이용하여, ligated 생성물 및 결정된 유전자형으로부터 높은 처리량의 서열 데이터를 생성할 수 있다(Curry et al., 2012). 많은 수의 샘플 인덱스 사용하여 고효율 시퀀싱 실행의 작은 부분에서 생성되는 수천 개의 샘플 중 수백 개의 SNP에서 높은 처리량의 서열 데이터를 얻을 수 있다. 이는 massive genotyping by sequencing technology(MGST)이다.
다른 실시형태에서 Flap Endonuclease(FEN)는 구조 특이적인 절단을 촉매하는 endonuclease이다. 이 절단은 mismatch에 매우 민감하며 고도의 특이성을 가진 SNP를 조사하는데 사용될 수 있다(Olivier M (June 2005). Mutat. Res. 573 (1-2): 103-10). Invader Assay(Invasive Cleavage of Oligonucleotide Probes)는 Flap Endonuclease(FEN)을 이용한 방법으로, invader probe와 normal probe 또는 mutand probe가 target DNA에 hybridization될 때 단일 염기가 일치하는 경우 one base invasion이 발생하여 5’ end가 cleavage되고 이 절편이 reporter arm을 가진 signal oligonucleotide의 삼차원 구조에 결합하여 arm 말단에 표지된 형광물질의 cleavage를 유발함으로써 형광을 나타낸다(Ryan et al. 1999). 이를 검출하여 SNP를 구분한다.
2. NGS 기반 분석 방법
생어 염기서열 분석법(Sanger sequencing)은 매우 간편하고 독성이 적어서 비슷한 시기에 개발된 Maxam-Gilbert 법(Maxam and Gilbert, 1977)에 비해 빠르게 보급되었으며, 차후의 다른 방법들도 이 방법에서 변형 및 발전되었다. 이 기술은 DNA 중합 반응(DNA polymerization)에 기초한 것으로서, 서열 분석 대상인 DNA의 단일가닥 부위가 주형(template)으로 사용되며, 이 주형에 상보적인 짧은 올리고뉴클레오타이드가 합성을 개시하기 위한 프라이머(primer)로 사용된다. DNA 중합반응에서 디디옥시뉴클레오타이드 트리포스페이트(dideoxy nucleotide triphosphate, ddNTP)가 사용되면 DNA 사슬의 연장이 종료된다. 디디옥시뉴클레오타이드(dd-nucleotide)는 정상적인 뉴클레오타이드의 ribose의 3’ 위치에 -OH기가 H기로 치환되어 있다. 정상적인 DNA 합성과정에서 ddNTPs도 DNA 사슬에 결합할 수 있다. 그러나 DNA 사슬로 들어가고 나면 ddNTPs는 3’ 위치에 -OH기가 없으므로 더 이상 다음 뉴클레오타이드가 결합하지 못하여 신장반응이 종결된다.
반응에서는 4가지의 각기 다른 시험관을 사용한다. 각 시험관에는 DNA의 구성성분이 되는 dNTP(dATP, dTTP, dGTP, dCTP)가 공통적으로 들어있다. 각각의 시험관에는 서로 다른 ddNTP 사슬 종결자(chain terminator)가 들어있어서 한 시험관에는 ddATP, 다음 시험관에는 ddTTP, 다음 시험관에는 ddGTP, 다음 시험관에는 ddCTP가 소량씩 들어있다. 나중에 검출을 용이하게 하기 위하여 dNTP 중의 한가지나 또는 primer는 방사능(32P)으로 표지가 되어야 한다. 예를 들면, ddGTP는 무작위적으로 G자리에 들어가므로 모든 G자리에 이론적으로 ddGTP가 들어갈 수 있다. 이 반응에서 합성되는 각각의 DNA 사슬은 모든 G지점에서 끝나게 되므로 합성된 사슬의 길이를 보면 G가 존재하는 위치를 알 수 있다. 이와 마찬가지로 A시험관에서는 사슬의 중합은 모든 A지점에서 끝날 수 있으며, T시험관에서는 모든 T지점에서, C시험관에서는 모든 C지점에서 끝나게 되어, 각 시험관마다 일련의 서로 길이가 다른 DNA가 만들어진다. 반응 후 각 시험관에서 DNA를 변성시켜 새로 합성된 다양한 가닥이 주형으로부터 떨어져 나오게 한다. A, T, G, C 각 염기 반응시험관마다 다른 lane에서 전기영동 후, 길이에 따라 분리된 DNA 조각들을 자기방사법(autoradiography)으로 관찰한다. 인접한 A, C, G, T 각 lane에서 위치에 따라 이동한 DNA 조각인 band를 차례로 읽으면 DNA 염기서열을 결정할 수 있다.
초기의 Sanger방식은 생성된 DNA 조각을 polyacrylamide slab gel에서 전기영동으로 분리하고 방사능으로 읽어내는 과정을 따로 수행해야 하기 때문에 조작이 길고 복잡하며 시간과 노동력이 많이 소요되었다(Sun-Il Kwon, Next Generation Sequencing (NGS), A Key Tool to open the Personalized Medicine Era, Korean J Clin Lab Sci. 2012, 44(4): 167-177; F. SANGER, DNA sequencing with chain-terminating inhibitors, Proc. Nati. Acad. Sci. USA Vol. 74, No. 12, pp. 5463-5467, December 1977).
이러한 초기 Sanger 방식의 문제점을 개선하기 위하여, 형광라벨을 도입하고 모세관 전기영동을 결합시켜 반응과 탐색을 부분적으로 자동화시켰다(자동화 염기서열 분석기술 - 1세대 염기서열 분석법). 형광라벨을 각각의 ddNTPs를 구분할 수 있는 표지자로 이용함으로써 하나의 시험관에서 염기서열 분석을 진행할 수 있으며, 모세관 전기영동은 전기영동에 필요한 모세관수를 획기적으로 늘림으로써 분석의 효율을 높였다. 또한 염기서열 분석기뿐만 아니라 주변기기도 자동화되게 되어서 사람의 손으로 하던 클로닝과 염기서열 결정 작업이 상당부분 자동화되었다.
하지만 이러한 자동화에도 불구하고, 기본적으로는 Sanger의 사슬 종결(chain termination)을 이용한 염기서열 분석방법을 그대로 이용하는 것이었기 때문에 인간의 방대한 양의 유전체를 밝히기 위해서는 막대한 시간과 비용이 소요되는 문제점을 여전히 가지고 있었다. 개인의 염기서열을 분석하고 이를 의학을 비롯한 산업에 연계하기 위해서는 적은 시간 및 저렴한 비용을 들여 염기서열을 분석할 수 있는 획기적인 기술 개발의 필요성이 대두되었다. 이러한 문제를 해결하기 위하여 병목이 되고 있는 복잡한 과정을 과감히 없애거나, 시간이 많이 소요되는 과정을 한꺼번에 대량으로 처리할 수 있는 방법이 시도되었다.
본래 차세대 염기서열 분석(Next Generation Sequencing, NGS)으로 지칭되는 기술은 자동화로는 제2세대 기술에 해당된다. NGS는 이전의 첫 자동화 기기와 구분하고, 이후에 탄생한 Next NGS 기기(차차세대, 혹은 제3세대 NGS라고도 지칭됨)와 따로 구분하기 위하여 불리는 이름이다. 그러나, 효율적인 염기서열 분석기술의 개발경쟁이 가속화되고 새로운 기술의 도입 및 플랫폼의 사용 목적에 기초한 염기서열 분석기술이 지속적으로 개발됨에 따라, 각 세대의 염기서열 분석기술은 그 구분이 모호해지고, NGS는 자동화된 생어 염기서열 분석기술 이후의 염기서열 분석기술을 모두 아우르는 광의의 의미로 사용되고 있다.
NGS에 도입된 기술은 크게 클론 증폭(clonal amplification), 대량병렬법(massively parallel), 바로 읽을 수 있는 새로운 염기서열결정법(비 Sanger법)(base/color calling) 등 3가지로 나눌 수 있다. 클론 증폭은 라이브러리(library) 구축과정을 제거하여 클로닝 과정이 제거되는 효과를 가지며, 대량병렬법은 동시에 수십만 개의 클론을 취급하므로 효율이 향상된다. 바로 읽을 수 있는 새로운 염기서열결정법은 모세관 전기영동 과정이 제거된 효과를 나타낸다.
클론 증폭(clonal amplification)에 의해 주형 clone을 얻는 과정이 단순화되었다. Sanger법으로 시퀀싱을 하려면 약 500염기쌍의 길이를 가진 주형 DNA가 필요하다. BAC library를 구축한 후 subcloning을 통해서 짧은 단편을 cloning한 다음 bacteria에서 증폭해야 한다. 새로운 방법은 번거로운 library 구축과 cloning 과정을 모두 없애고 DNA를 바로 적절히 짧은 단편으로 자른 다음 프라이머를 이용하여 PCR로 바로 증폭하여 주형 clone을 얻을 수 있게 한다. 클론 증폭에는 비드 기반(bead-based), 솔리드-스테이트(solid-satate), DNA 나노볼 생성(DNA nanoball generation)과 같은 전략들이 사용된다.
비드 기반의 클론 증폭의 경우, 에멀젼 PCR을 이용한다. 에멀전 PCR은 게놈 DNA를 단편화(fragmentation)하여 얻은 집합체인 DNA 라이브러리(DNA library)를 기름 속에서 작은 수용액 방울로 공간적으로 분리(separation)한 다음 한쪽 PCR primer가 표면에 수식된 미세비드와 함께 유탁액(emulsion)안에서 증폭한다. 이렇게 만들어진 한 개의 비드에 하나의 단일 DNA 단편에서 유래한 100만개 이상의 클론 DNA 조각이 고정되어 있게 하는 방법이다. 솔리드 스테이트 방법에는 대표적으로 브릿지-증폭방법(Bridge-amplification)이 있다. 브릿지-증폭방법은 단편화한 DNA의 양 말단에 어댑터 올리고뉴크레오타이드(adaptor oligonucleotide)를 연결시킨 후, 이를 glass flow cell의 표면에 흘려주면 표면에 고정된 어댑터와 상보적인 primer에 무작위로 결합된다. 이 상태에서 PCR을 행하면 주변에 존재하는 free primer에 고정된 DNA의 자유 말단이 결합되어 브릿지 형태를 이루고 증폭이 진행된다. 이렇게 증폭이 진행을 하면 상기 비드와 동일한 역할을 하는 클러스터(cluster)가 형성된다.
NGS는 대량병렬(massively parallel) 방식을 도입하여 상기 클론들을 판상으로 배치하여 염기서열 분석을 진행한다. 주형 clone은 숫자가 매우 많아서 이를 따로 준비하면 시간이 많이 소요된다. 주형에서 염기서열신호를 읽어내는 과정도 효율을 떨어뜨리는 심각한 제한요인이 된다. 수십만 개의 다른 clone을 대량병렬 방식으로 처리하면 시간을 획기적으로 단축할 수 있다.
번거로운 전기영동 과정을 없애기 위해서 주형에 반응을 일으킨 다음, 반응에서 나오는 시그널로 각 주형의 서열정보를 바로 읽는 Sanger법을 탈피한 새로운 방법이 개발되었다. Sanger법을 대체하는 염기서열 결정법은 크게 DNA 결찰(ligation)을 통한 서열 분석 방법(Sequencing By Ligation, SBL)과 중합을 통한 서열 분석 방법(Sequencing By Synthesis, SBS)으로 나뉜다.
SBL방식은 DNA단편의 반복적인 결찰(ligation)을 이용하는 것으로 주형 DNA에 n개의 염기를 갖는 앵커가 상보적으로 결합되며, 형광라벨로 표지 되는 2개의 무작위적으로 인코딩된 염기(encoded base)와 그 뒤에 따라오는 퇴화염기 또는 범용염기(degenerate or universial bases)를 갖는 프로브가 상기한 비드 나 클러스터가 침전된 DNA 라이브러리 슬라이드에 추가된다. 앵커의 바로 뒤에 따라오는 주형 DNA 단편과 상보적인 2개의 엔코딩된 서열을 가지는 프로브가 앵커에 라이게이션되고, 슬라이드의 형광라벨 이미징을 통해 2개의 인코딩된 염기서열을 분석한다. 2개의 서열이 분석되면 퇴화염기서열과 형광입자는 제거 된 후 프로브를 추가하는 상기 과정을 반복한다. 상기한 n의 앵커 외에 n+2, n+4의 염기를 갖는 앵커를 이용 및 반복적으로 분석하여 전체 주형 DNA단편의 서열을 분석하는 방법이다.
SBS는 다시 사이클릭 리버서블 터미네이션 방식(Cyclic Reversible Termination, CRT)과 단일 뉴클레오타이드 추가 방식(Single Nucleotide Addition, SNA)으로 구분된다.
CRT방식은 자동화된 Sanger 방식과 유사한 과정을 이용하는데, 솔리드 스테이트 방법을 이용해 증폭된 DNA 클러스터를 갖는 슬라이드에 프라이머, DNA 중합효소, 변형 뉴클레오타이드 혼합물을 추가한다. 상기 변형 뉴클레오타이드는 추가적인 중합과정이 일어날 수 없도록 3`-O-아지도메틸(3`-O-azidomethyl)로 차단되며 각 베이스 특유적인 그리고 추후 제거가능한 형광라벨로 표지 된다. 중합 후 중합되지 않은 베이스는 씻어내고 총 내부 반사형 형광체(total internal reflection fluorescence, TIRF) 현미경을 이용하여 이미징을 통해 염기를 식별한다. 염기가 식별되면, 형광라벨은 분해되고 3′-OH는 환원제 Tris 2-Carboxyethyl)phosphine (TCEP)으로 재생된다. 이러한 과정을 반복하여 전기영동 없이 주형 DNA의 서열을 분석하는 방식이다.
SNA방식은 DNA 중합효소가 단일 뉴클레오타이드를 붙일 때 생성되는 이온등을 빛으로 전환하여 염기서열을 분석하는 방식이다. SNA방식은 Roche사의 454기기가 이용하는 파이로시퀀싱 방법으로 대표되는데, 이는 뉴클레오타이드가 결합할 때 방출되는 이인산(pyrophosphate)를 빛으로 읽어내는 방식이다. 4가지의 dNTP(A, G, T, C)를 순차적으로 넣어서 반응시키고 씻어내기를 반복하면 중합반응이 될 때마다 빛을 발산하므로 이를 통해 염기서열을 알아내는 방식이다.
SBL을 이용한 대표적인 분석기기로는 구 Life Technologies사의 SOLiD 시리즈가 있으며, SBS를 이용한 대표적 분석기기로는 Illumina사의 Hiseq 시리즈(CRT 방식), Roche사의 454 시리즈(SNA 방식)가 있다.
a. 타겟 풍부화(Target Enrichment)
핵산 샘플
다양한 조직 샘플은 본 방법에 사용된 핵산 샘플의 공급원일 수 있다. 게놈 또는 서브게놈 핵산(예를 들어, DNA 또는 RNA)은 피험체의 샘플(예를 들어, 종양 샘플, 정상 인접 조직(NAT), 혈액 샘플, 혈중 종양 세포를 함유하는 샘플(CTC) 또는 임의의 정상 대조군))로부터 분리될 수 있다. 특정 실시형태에서, 조직 샘플은 냉동 샘플로서 또는 포름알데하이드- 또는 파라포름알데하이드-고정 파라핀 포매(FFPE) 조직 제조물로서 보존된다. 예를 들어, 샘플은 매트릭스, 예를 들어 FFPE 블록 또는 냉동 샘플 내에 포매될 수 있다. 분리 단계는 개개 염색체의 유동-분리(flow-sorting); 및/또는 피험체 샘플의 마이크로-해부(예를 들어, 종양 샘플, NAT, 혈액 샘플)를 포함할 수 있다.
본 발명에서 "분리된" 핵산 분자는 핵산 분자의 천연 공급원에 존재하는 다른 핵산 분자로부터 분리된 것이다. 특정 실시형태에서, "분리된" 핵산 분자는 핵산이 유래된 유기체의 게놈 DNA에서 핵산에 자연적으로 측접한 서열(예컨대 단백질-암호화 서열)(즉, 핵산의 5' 및 3'에 위치된 서열)이 없다. 예를 들어, 다양한 실시형태에서, 분리된 핵산 분자는 핵산이 유래된 세포의 게놈 DNA에서 핵산 분자에 자연적으로 측접한 약 5 kB 미만, 약 4 kB 미만, 약 3kB 미만, 약 2 kB 미만, 약 1 kB 미만, 약 0.5 kB 미만 또는 약 0.1 kB의 뉴클레오타이드 서열을 함유할 수 있다. 게다가, "분리된" 핵산 분자, 예컨대 cDNA 분자는 재조합 기법에 의해 생성될 때 다른 세포 물질 또는 배양물이 실질적으로 없거나 또는 화학적으로 합성될 때 화학적 전구체 또는 다른 화학물질이 실질적으로 없을 수있다.
"다른 세포 물질 또는 배양 배지가 실질적으로 없는"이라는 표현은 핵산 분자가 그것이 분리되거나 또는 재조합적으로 생성된 세포의 세포 성분으로부터 분리된, 핵산 분자의 제조를 포함한다. 따라서, 세포 물질이 실질적으로 없는 핵산 분자는 약 30% 미만, 약 20% 미만, 약 10% 미만 또는 약 5% 미만(건조 중량으로)의 다른 세포 물질 또는 다른 배양 배지를 갖는 핵산 분자의 제조를 포함한다.
특정 실시형태에서, 핵산은 연령 샘플, 예를 들어 연령 FFPE 샘플로부터 분리된다. 연령 샘플은, 예를 들어 연령, 예를 들어 1세, 2세, 3세, 4세, 5세, 10세, 15세, 20세, 25세, 50세, 75 세 또는 100세 이상일 수 있다.
핵산 샘플은 다양한 크기의 조직 샘플(예를 들어, 생검 또는 FFPE 샘플)로부터 얻을 수 있다. 예를 들어, 핵산은 5 내지 200㎛ 또는 그 이상의 조직 샘플로부터 분리될 수 있다. 예를 들어, 조직 샘플은 5㎛, 10㎛, 20㎛, 30㎛, 40㎛, 50㎛, 70㎛, 100㎛, 110㎛, 120㎛, 150㎛ 또는 200㎛ 이상으로 측정될 수 있다.
조직 샘플로부터 DNA 분리를 위한 프로토콜은 실시예 1에서 제공된다. 포름알데하이드- 또는 파라포름알데하이드-고정, 파라핀-포매(FFPE) 조직으로부터 핵산(예를 들어, DNA)을 분리시키기 위한 추가적인 방법은, 예를 들어 문헌[Cronin M. et al., (2004) Am J Pathol. 164(1):35-42; Masuda N. et al., (1999) Nucleic Acids Res. 27(22):4436-4443; Specht K. et al., (2001) Am J Pathol. 158(2):419-429], 앰비온 리커버올(Ambion RecoverAll)(상표명) 전체 핵산 분리 프로토콜(Ambion, Cat. No. AM1975, September 2008), 맥스웰(Maxwell)(등록상표) 16 FFPE 플러스 LEV DNA 정제 키트 기술 매뉴얼(프로메가(Promega) 문헌 #TM349, 2011년 2월), E.Z.N.A.(등록상표) FFPE DNA 키트 핸드북(조지아주 노크로스에 소재한 오메카 바이오-테크(OMEGA bio-tek), 제품 번호 D3399-00, D3399-01 및 D3399-02; 2009년 6월), 및 QIAamp(등록상표) DNA FFPE 조직 핸드북(퀴아젠 (Qiagen), 카탈로그 번호 37625, 2007년 10월)에 개시된다. 리커버올(RecoverAll)(상표명) 전체 핵산 분리 키트는 파라핀-포매된 샘플을 가용화하기 위하여 상승된 온도에서 자일렌을 사용하고, 핵산을 포획하기 위하여 유리-섬유 필터를 사용한다. 맥스웰(Maxwell)(등록상표) 16 FFPE 플러스 LEV DNA 정제 키트는 FFPE 조직의 1 내지 10㎛ 부문으로부터 게놈 DNA의 정제를 위해 맥스웰(Maxwell)(등록상표) 16 기기와 함께 사용된다. DNA는 실리카-클래드 상자성 입자(PMP)를 사용하여 정지되고, 낮은 용리 부피로 용리된다. E.Z.N.A.(등록상표) FFPE DNA 키트는 게놈 DNA의 분리를 위한 스핀 칼럼 및 완충제 시스템을 사용한다. QIAamp(등록상표) DNA FFPE 조직 키트는게놈 및 미토콘드리아 DNA의 정제를 위해 QIAamp(등록상표) DNA 마이크로기법을 사용한다. 혈액으로부터 DNA 분리를 위한 프로토콜은, 예를 들어 맥스웰(Maxwell)(등록상표) 16 LEV 혈액 DNA 키트 및 맥스웰(Maxwell) 16 경구 면봉 LEV DNA 정제 키트 기술 매뉴얼(프로메가(Promega) 문헌 #TM333, 2011년 1월 1일)]에 개시된다.
RNA 분리를 위한 프로토콜은, 예를 들어 맥스웰(Maxwell)(등록상표) 16 전체 RNA 정제 키트 기술 공고(프로메가(Promega) 문헌 #TB351, 2009년 8월)]에 개시된다.
분리된 핵산 샘플(예를 들어, 게놈 DNA 샘플)은 일상적인 기법에 의해 단편화되거나 또는 전단될 수 있다. 예를 들어, 게놈 DNA는 물리적 전단 방법, 효소적 절단 방법, 화학적 절단 방법 및 당업자에게 잘 알려진 다른 방법에 의해 단편화될 수 있다. 핵산 라이브러리는 모든 또는 실질적으로 모든 게놈의 복잡성을 함유할 수 있다. 이 내용에서 "실질적으로 모든"이라는 용어는 처리의 개시 단계 동안 사실상 게놈 복잡성의 일부 원치않는 소실이 있을 수 있다는 가능성을 지칭한다. 본 명세서에 기재된 방법은 또한 핵산 라이브러리가 게놈의 일부인 경우, 즉 게놈의 복잡성이 설계에 의해 감소되는 경우에 유용하다. 일부 실시형태에서, 게놈의 임의의 선택된 부분은 본 발명에 기재된 방법과 함께 사용될 수 있다. 특정 실시형태에서, 전체 엑솜 또는 이것의 서브세트는 분리된다.
본 발명에서 특징으로 하는 방법은 핵산 샘플을 분리시켜 라이브러리(예를 들어, 본 명세서에 기재된 바와 같은 핵산 라이브러리)를 제공하는 단계를 추가로 포함할 수 있다. 특정 실시형태에서, 핵산 샘플은 전체 게놈, 서브 게놈 단편 또는 둘 다를 포함한다. 분리된 핵산 샘플은 핵산 라이브러리를 제조하기 위해 사용될 수 있다. 따라서, 일 실시형태에서, 본 발명에서 특징으로 하는 방법은 핵산 샘플을 분리시켜 라이브러리(예를 들어, 본 발명에 기재된 바와 같은 핵산 라이브러리)를 제공하는 단계를 추가로 포함한다. 전체 게놈 또는 서브게놈 단편으로부터 라이브러리를 분리시키고 제조하기 위한 프로토콜은 당업계에 공지되어 있다(예를 들어, 일루미나(Illumina)의 게놈 DNA 샘플 제조 키트). 특정 실시형태에서, 게놈 또는 서브게놈 DNA 단편은 피험체의 샘플(예를 들어, 종양 샘플, 정상 인접 조직(NAT), 혈액 샘플 또는 임의의 정상 대조군))로부터 분리된다. 일 실시형태에서, 샘플(예를 들어, 종양 또는 NAT 샘플)은 보존된 표본이다. 예를 들어, 샘플은 매트릭스, 예를 들어 FFPE 블록 또는 냉동 샘플 내에 포매된다. 특정 실시형태에서, 분리 단계는 개개의 염색체의 유동-분리단계; 및/또는 피험체 샘플(예를 들어, 종양 샘플, NAT, 혈액 샘플)의 마이크로해부 단계를 포함한다. 특정 실시형태에서, 핵산 라이브러리를 만들기 위해 사용된 핵산 샘플은 5 마이크로그램 미만, 1 마이크로그램 미만 또는 500ng 미만, 200ng 미만, 100ng 미만, 50ng 미만, 10ng 미만, 5ng 미만 또는 1ng 미만이다.
또 다른 실시형태에서, 라이브러리를 만들기 위해 사용되는 핵산 샘플은 RNA 또는 RNA로부터 유래된 cDNA를 포함한다. 일부 실시형태에서, RNA는 전체 세포 RNA를 포함한다. 다른 실시형태에서, 특정 존재비 RNA 서열(예를 들어, 리보솜 RNA)은 결실되었다. 일부 실시형태에서, 전체 RNA 제조물 내 폴리(A)-꼬리 mRNA 분획은 풍부화되었다. 일부 실시형태에서, cDNA는 무작위-프라이밍된 cDNA 합성 방법에 의해 생성된다. 다른 실시형태에서, cDNA 합성은 올리고(dT)-함유 올리고뉴클레오타이드에 의해 성숙 mRNA의 폴리(A) 꼬리에서 개시된다. 결실, 폴리(A) 풍부화 및 cDNA 합성을 위한 방법은 당업자에게 잘 공지되어 있다.
해당 방법은 당업자에게 잘 공지된 특이적 또는 비특이적 핵산 증폭 방법에 의해 핵산 샘플을 증폭시키는 단계를 추가로 포함할 수 있다. 일부 실시형태에서, 특정 실시형태에서, 핵산 샘플은, 무작위-프라이밍된 가닥-치환 증폭과 같은 전체-게놈 증폭 방법에 의해 증폭된다.
다른 실시형태에서, 핵산 샘플은 물리적 또는 효소적 방법에 의해 단편화되거나 또는 전단되고, 합성 어댑터에 결찰되며, 크기가 선택되고(예를 들어, 분취 겔 전기 영동에 의함), 증폭된다(예를 들어, PCR에 의함). 다른 실시형태에서, 핵산의 단편화되고, 어댑터-결찰된 그룹은 혼성 선택 전 크기 선택 또는 증폭을 명확하게 하지 않고 사용된다.
다른 실시형태에서, 분리된 DNA(예를 들어, 게놈 DNA)는 단편화되거나 또는 전단된다. 일부 실시형태에서, 라이브러리는 게놈 DNA의 50% 미만, 예컨대 감소된 표현인 게놈 DNA의 하위단편(subfraction) 또는, 예를 들어 다른 수단에 의해 하위단편화된 게놈의 한정된 일부를 포함한다. 다른 실시형태에서, 라이브러리는 모든 또는 실질적으로 모든 게놈 DNA를 포함한다.
일부 실시형태에서, 라이브러리는 게놈 DNA의 50% 미만, 예컨대 감소된 표현인 게놈 DNA의 하위단편 또는, 예를 들어 다른 수단에 의해 하위단편화된 게놈의 한정된 일부를 포함한다. 다른 실시형태에서, 라이브러리는 모든 또는 실질적으로 모든 게놈 DNA를 포함한다. 전체 게놈 또는 서브게놈 단편으로부터 라이브러리를 분리시키고, 제조하기 위한 프로토콜은 당업계에 공지되어 있다(예를 들어, 일루미나(Illumina)의 게놈 DNA 샘플 제조 키트). 대안의 DNA 전단 방법은 더 자동화가능하며 및/또는 더 효율적일 수 있다(예를 들어 분해된 FFPE 샘플에 의해). DNA 전단 방법에 대한 대안은 또한 라이브러리 제조 동안 결찰 단계를 회피하기 위해 사용될 수 있다.
본 발명에 기재된 방법은 공급원 DNA의 양이 제한될 때(예를 들어, 전체-게놈 증폭 후 조차), 소량의 핵산을 사용하여 수행될 수 있다. 일 실시형태에서, 핵산은 약 5㎍ 미만, 4㎍, 3㎍, 2㎍, 1㎍, 0.8㎍, 0.7㎍, 0.6㎍, 0.5㎍또는 400ng, 300ng, 200ng, 100ng, 50ng, 10ng, 5ng, 1ng 또는 그 미만인 핵산 샘플을 포함한다. 예를 들어, 전형적으로 50 내지 100ng의 게놈 DNA로 시작될 수 있다. 그러나 혼성화 단계, 예를 들어 용액 혼성화 전 게놈 DNA(예를 들어, PCR을 사용)를 증폭시킨다면, 더 적게 시작할 수 있다. 따라서, 혼성화, 예를 들어 용액 혼성화 전 게놈 DNA를 증폭시키는 것은 가능하지만, 필수적인 것은 아니다.
라이브러리를 만들기 위해 사용된 핵산 샘플은 또한 RNA 또는 RNA로부터 유래된 cDNA를 포함할 수 있다. 일부 실시형태에서, RNA는 전체 세포 RNA를 포함한다. 다른 실시형태에서, 특정 존재비 RNA 서열(예를 들어, 리보솜 RNA)은 결실되었다. 다른 실시형태에서, 전체 RNA 제조물 내 폴리(A)-꼬리 mRNA 분획은 풍부화되었다. 일부 실시형태에서, cDNA는 무작위-프라이밍된 cDNA 합성 방법에 의해 생성된다. 다른 실시형태에서, cDNA 합성은 올리고(dT)-함유 올리고뉴클레오타이드에 의한 프라이밍에 의해 성숙 mRNA의 폴리(A) 꼬리에서 개시된다. 결실, 폴리(A) 풍부화 및 cDNA 합성을 위한 방법은 당업자에게 잘 공지되어 있다.
해당 방법은 당업자에게 공지된 특이적 및 비특이적 핵산 증폭 방법에 의해 핵산 샘플을 증폭시키는 단계를 추가로 포함할 수 있다. 핵산 샘플은, 예를 들어 무작위-프라이밍 가닥-치환 증폭과 같은 전체-게놈 증폭 방법에 의해 증폭될 수 있다.
핵산 샘플은 본 발명에 기재된 물리적 또는 효소적 방법에 의해 단편화되거나 또는 전단될 수 있고, 합성 어댑터에 결찰되며, 크기가 선택되고(예를 들어 분취 겔 전기영동에 의함) 증폭된다(예를 들어, PCR에 의함). 핵산의 단편화되고, 어댑터-결찰된 그룹은 혼성 선택 전 크기 선택 또는 증폭을 명확하게 하지 않고 사용된다.
라이브러리 구성원
본 발명에서 "구성원" 또는 "라이브러리 구성원" 또는 다른 유사한 용어는 핵산 분자, 예를 들어 라이브러리(또는 "라이브러리-캐치")의 구성원인 DNA 또는 RNA를 지칭한다. 라이브러리 구성원은 본 명세서에 기재된 바와 같은 종양 구성원, 기준 구성원 또는 PGx 구성원 중 하나 이상일 수 있다. 전형적으로, 구성원은 DNA 분자, 예를 들어 게놈 DNA 또는 cDNA 분자이다. 구성원은, 예를 들어 효소적으로 또는 전단에 의해 단편화된 게놈 DNA일 수 있다. 구성원은 피험체로부터의 뉴클레오타이드 서열을 포함할 수 있고, 또한 피험체, 예를 들어 프라이머 또는 어댑터(예를 들어, PCR 증폭에 대해 또는 시퀀싱에 대해)로부터 유래되지 않은 뉴클레오타이드 서열 또는 샘플, 예를 들어 "바코드" 서열을 확인하게 하는 서열을 포함할 수 있다.
본 발명에서 "표적 구성원"은 핵산 라이브러리로부터 분리될 것이 요망되는 핵산 분자를 지칭한다. 일 실시형태에서, 표적 구성원은 본 명세서에 기재된 바와 같은 종양 구성원, 기준 구성원 또는 PGx 구성원일 수 있다. 핵산 라이브러리로부터 실제로 선택된 구성원은 본 명세서에서 "라이브러리 캐치"로서 지칭된다. 일 실시형태에서, 라이브러리-캐치는 라이브러리 구성원의 선택 또는 풍부화, 예를 들어 본 명세서에 기재된 혼성체 포획물 중 하나 이상의 라운드 후 라이브러리의 풍부화되거나 또는 선택된 결과물을 포함한다.
표적 구성원은 라이브러리의 하위그룹일 수 있으며, 즉 라이브러리 구성원의 모두가 본 명세서에 기재된 어떤 특정한 과정의 사용에 의해 선택되는 것은 아니다. 다른 실시형태에서, 표적 구성원은 요망되는 표적 영역 내에 있다. 예를 들어, 표적 구성원은 10%만큼 낮거나 또는 95% 내지 98%만큼 높거나 또는 그 이상인 라이브러리 구성원의 백분율일 수 있다. 일 실시형태에서, 라이브러리 캐치는 적어도 약 20%, 30%, 40%, 50%, 60%, 70%, 75%, 80%, 85%, 90%, 95%, 98%, 99%, 99.9% 이상의 표적 구성원을 포함한다. 다른 실시형태에서, 라이브러리는 표적 구성원의 100%를 함유한다. 일 실시형태에서, 라이브러리 캐치의 순도(표적에 대해 배열되는 리드의 백분율)는 적어도 약 20%, 30%, 40%, 50%, 60%, 70%, 75%, 80%, 85%, 90%, 95%, 98%, 99%, 99.9% 이상이다.
게놈 DNA로부터 얻은 표적 구성원(또는 라이브러리 캐치)는 전체 게놈 DNA의 작은 분획을 포함할 수 있으므로, 이는 약 0.0001% 미만, 적어도 약 0.0001%, 적어도 약 0.001%, 적어도 약 0.01% 또는 적어도 약 0.1%의 게놈 DNA 또는 전체 게놈 DNA의 더 유의한 분획을 포함하며, 이는 적어도 약 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9% 또는 10%의 게놈 DNA 또는 10% 이상의 게놈 DNA를 포함한다.
일 실시형태에서, 표적 구성원(또는 라이브러리 캐치)은 게놈의 복잡한 혼합물로부터 선택된다. 예를 들어, 다른 세포 유형(예를 들어, 정상 세포)으로부터 DNA를 함유하는 샘플로부터 하나의 세포 유형(예를 들어, 암 세포)으로부터의 DNA 선택. 이러한 적용에서, 표적 구성원은 복합체 샘플 또는 더 유의한 분획에서 존재하는 핵산 서열의 전체 복잡성의 0.0001% 미만, 적어도 0.0001%, 적어도 약 0.001%, 적어도 약 0.01% 또는 적어도 약 0.1%를 포함할 수 있으므로, 이는 복합체 샘플 내 존재하는 핵산 서열의 전체 복잡성의 적어도 약 1%, 2%, 5%, 10% 또는 10% 이상을 포함한다.
일 실시형태에서, 본 발명에 기재된 방법(예를 들어, 용액 혼성화 선택 방법)에 의해 선택된 표적 구성원(또는 라이브러리 캐치)은 게놈 엑손의 게놈 내 엑손의 모두 또는 일부, 예컨대 약 0.1%, 1%, 2%, 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% 또는 95% 초과를 포함한다. 다른 실시형태에서, 표적 구성원(또는 라이브러리 캐치)은 엑손의 구체적 그룹, 예를 들어, 적어도 약 100, 200, 300, 400, 500, 600, 700, 800, 900 또는 1000개의 특정 엑손, 예를 들어, 암과 같은 특정 질병과 관련된 엑손일 수 있다. 또 다른 실시형태에서, 표적 구성원(또는 라이브러리 캐치)은 엑손 또는 관심의 선택된 유전자의 다른 부분을 함유한다. 구체적 베이트 서열의 사용은 실행자가 특정 선택을 위한 핵산의 그룹으로부터 표적 서열(선택된 서열의 이상적 세트) 및 다수의 또는 소수의 엑손(또는 다른 서열)을 함유하는 핵산의 서브그룹(선택된 서열의 실제 세트)을 선택하기 위해 한다.
일 실시형태에서, 표적 구성원(또는 라이브러리 캐치)은 cDNA의 세트를 포함한다. cDNA의 포획은, 예를 들어 스플라이스 변이체를 찾기 위하여, 그리고 융합 전사체를 확인하기 위하여(예를 들어, 게놈 DNA 전위) 사용될 수 있다. 다른 실시형태에서, 표적 구성원(및 라이브러리 캐치)은 세포, 조직 또는 기관, 예를 들어 종양 내, 세포의 RNA 분획에서 발현된 단일 염기 변화 및 다른 서열 변화를 발견하기 위해 사용된다.
표적 구성원(또는 라이브러리 캐치)(예를 들어, 엑손, cDNA 및 다른 서열)은 원한다면 관련되거나 또는 관련되지 않을 수 있다. 예를 들어, 선택된 표적 구성원(및 라이브러리 캐치)은 질병에 수반된 유전자인 핵산의 그룹, 예컨대 암과 같은 하나 이상의 질병에 연루된 유전자의 그룹, 특이적 SNP를 함유하는 핵산의 그룹으로부터 얻어질 수 있다.
베이트의 설계 및 구성
베이트는 혼성화될 수 있는(예를 들어, 상보적인) 핵산 분자, 예를 들어 DNA 또는 RNA 분자일 수 있으며, 이에 의해 표적 핵산을 포획하게 한다. 일 실시형태에서, 베이트는 RNA 분자이다. 다른 실시형태에서, 베이트는 베이트에 의해 형성된 혼성체 및 베이트에 혼성화된 핵산의 결합 독립체, 예를 들어 앞서 언급한 결합 독립체를 포함한다. 일 실시형태에서, 베이트는 용액 상 혼성화에 적합하다.
전형적으로, RNA 분자는 베이트 서열로서 사용된다. RNA-DNA 듀플렉스는 DNA-DNA 듀플렉스보다 더 안정하며, 따라서 핵산의 잠재적으로 더 양호한 포획을 제공한다.
RNA 베이트는, 이하에 제한되는 것은 아니지만, 데노보(de novo) 화학 합성 및 DNA-의존적 RNA 폴리머라제를 사용하는 DNA분자의 전자를 포함하는, 당업계에 공지된 방법을 사용하여 본 명세서의 다른 곳에 기재된 바와 같이 만들어질 수 있다. 일 실시형태에서, 베이트 서열은 PCR과 같은 공지된 핵산 증폭 방법을 사용하여, 예를 들어 주형으로서 인간 DNA 또는 불량한 인간 DNA 샘플을 사용하여 생성된다. 그 다음에 올리고뉴클레오타이드는 RNA 베이트로 전환될 수 있다. 일 실시형태에서, 시험관내 전사는, 예를 들어 올리고뉴클레오타이드의 한 말단에 RNA 폴리머라제 프로모터 서열을 첨가하는 것을 기반으로 사용된다. 일 실시형태에서, RNA 폴리머라제 프로모터 서열은 베이트 서열을 증폭시키거나 또는 재증폭시킴으로써, 예를 들어 PCR 또는 다른 핵산 증폭 방법을 사용하여, 예를 들어 RNA 프로모터 서열로 각각의 표적-특이적 프라이머 쌍의 하나의 프라이머를 테일링(tailing)함으로써 베이트의 말단에 첨가된다. 일 실시형태에서, RNA 폴리머라제는 T7 폴리머라제, SP6 폴리머라제 또는 T3 폴리머라제이다. 일 실시형태에서, RNA 베이트는 태그, 예를 들어 친화도 태그로 표지된다. 일 실시형태에서, RNA 베이트는, 예를 들어 바이오틴화된 UTP를 사용하여 시험관내 전사에 의해 만들어진다. 다른 실시형태에서, RNA 베이트는 바이오틴 없이 생성된 다음, 바이오틴은 당업계에 잘 공지된 방법, 예컨대 소랄렌(psoralen) 가교를 사용하여 RNA 분자에 가교된다. 일 실시형태에서, RNA 베이트는 RNase-내성 RNA 분자인데, 이는, 예를 들어 전사 동안 변형된 뉴클레오타이드를 사용함으로써 만들어져서 RNase 분해에 저항하는 RNA 분자를 생성할 수 있다. 일 실시형태에서, RNA 베이트는 이중 가닥 DNA 표적의 단지 하나의 가닥에 대응된다. 전형적으로, 이러한 RNA 베이트는 자기-상보적이지 않으며, 혼성화 구동자로서 더 효과적이다.
베이트 세트는 기준 서열로부터 설계될 수 있으므로, 베이트는 기준 서열의 표적을 선택하는데 최적이다. 일부 실시형태에서, 베이트 서열은 혼합된 염기(예를 들어, 축퇴)를 사용하여 설계된다. 예를 들어, 혼합된 염기(들)는 보통의 SNP 또는 돌연변이의 위치(들)에서 베이트 서열에 포함되어 대립유전자들 둘 다(예를 들어, SNP와 비-SNP; 돌연변이체와 비-돌연변이체)를 잡는 베이트 서열을 최적화할 수 있다. 일부 실시형태에서, 모든 공지된 서열 변형(또는 이것의 서브세트)은 혼합된 축퇴 올리고뉴클레오타이드를 사용하는 것보다는 다중 올리고뉴클레오타이드 베이트에 의해 표적화될 수 있다.
특정 실시형태에서, 베이트 세트는 길이로 약 100개의 뉴클레오타이드 내지 300개의 뉴클레오타이드의 올리고뉴클레오타이드(또는 복수의 올리고뉴클레오타이드)를 포함한다. 전형적으로, 베이트 세트는 길이로 약 130개의 뉴클레오타이드 내지 230개의 뉴클레오타이드, 또는 약 150 내지 200개의 뉴클레오타이드의 올리고뉴클레오타이드(또는 복수의 올리고뉴클레오타이드)를 포함한다. 다른 실시형태에서, 베이트 세트는 길이로 약 300개의 뉴클레오타이드 내지 1000개의 뉴클레오타이드의 올리고뉴클레오타이드(또는 복수의 올리고뉴클레오타이드)를 포함한다.
일부 실시형태에서, 올리고뉴클레오타이드에서 표적 구성원-특이적 서열은 길이로 약 40 내지 1000개의 뉴클레오타이드, 약 70 내지 300개의 뉴클레오타이드, 약 100 내지 200개의 뉴클레오타이드, 전형적으로 길이로 약 120 내지 170개의 뉴클레오타이드이다.
일부 실시형태에서, 베이트 세트는 결합 독립체를 포함한다. 결합 독립체는 각각의 베이트 서열 상에서 친화도 태그일 수 있다. 일부 실시형태에서, 친화도 태그는 바이오틴 분자 또는 햅텐이다. 특정 실시형태에서, 결합 독립체는 햅텐 또는 이것의 항원-결합 단편에 결합하는 아비딘 분자 또는 항체와 같은 상대에 결합함으로써 혼성화 혼합물로부터 베이트/구성원 혼성체를 분리시킨다.
다른 실시형태에서, 베이트 세트 내 올리고뉴클레오타이드는 동일 표적 구성원 서열에 대해 전방 및 후방의 상보적 서열을 함유하며, 이에 의해 후방-상보적(reverse-complemented) 구성원-특이적 서열을 갖는 올리고뉴클레오타이드는 또한 후방 상보적인 보편적 꼬리를 운반한다. 이는 동일 가닥인, 즉 서로 상보적이 아닌 RNA 전사체를 유발할 수 있다.
다른 실시형태에서, 베이트 세트는 하나 이상의 위치에서 축퇴 또는 혼합된 염기를 함유하는 올리고뉴클레오타이드를 포함한다. 또 다른 실시형태에서, 베이트 세트는 단일 종의 집단 또는 유기체의 군집에 존재하는 다중 또는 실질적으로 모든 알려진 서열 변이체를 포함한다. 일 실시형태에서, 베이트 세트는 인간 집단에 존재하는 다중 또는 실질적으로 모든 알려진 서열 변이체를 포함한다.
다른 실시형태에서, 베이트 세트는 cDNA 서열을 포함하거나 또는 cDNA 서열로부터 유래된다. 다른 실시형태에서, 베이트 세트는 게놈 DNA, cDNA 또는 클로닝된 DNA로부터 증폭된 증폭 생성물(예를 들어, PCR 생성물)을 포함한다.
다른 실시형태에서, 베이트 세트는 RNA 분자를 포함한다. 일부 실시형태에서, 세트는 화학적으로, 효소적으로 변형된 또는, 이하에 제한되는 것은 아니지만, RNase에 대해 더 안정하고 내성인 것을 포함하는 시험관내 전사된 RNA 분자를 포함한다.
또 다른 실시형태에서, 베이트는 본 명세서에 참조로서 포함된 미국특허 제2010/0029498호 및 문헌[Gnirke, A.et al. (2009) Nat Biotechnol. 27(2):182-189]에 기재된 방법에 의해 생성된다. 예를 들어, 바이오틴화된 RNA 베이트는 본래 마이크로어레이 상에서 합성된 합성의 긴 올리고뉴클레오타이드를 얻는 단계 및 올리고뉴클레오타이드를 증폭시켜 베이트 서열을 생성하는 단계에 의해 생성될 수 있다. 일부 실시형태에서, 베이트는 베이트 서열의 한 말단에서 RNA 폴리머라제 프로모터 서열을 첨가하는 단계 및 RNA 폴리머라제를 사용하여 RNA 서열을 합성하는 단계에 의해 생성된다. 일 실시형태에서, 합성 올리고데옥시뉴클레오타이드의 라이브러리는 애질런트 테크로놀로지스 인코포레이티드(Agilent Technologies, Inc.)와 같은 상업적 공급업자로부터 얻을 수 있고, 공지된 핵산 증폭 방법을 사용하여 증폭된다.
일 실시형태에서, 베이트 서열은 SNP를 암호화하는 표적 유전자 또는 유전자 생성물 또는 이것의 단편에서, 예를 들어 그것의 결합 능력(예를 들어, 친화성 및/또는 특이성)을 증가시키기 위해 SNP에 대한 염기 상보성을 선택한다. 대표적인 유전자 또는 유전자 생성물은, 이하에 제한되는 것은 아니지만, BRCA1, BRCA2, MAD2L2, TP53BP1, XRCC5, XRCC6 및 SFLN11를 포함한다.
또 다른 실시형태에서, 베이트 세트는 암과 관련된 표적 유전자 또는 유전자 생성물 또는 이것의 단편을 선택한다. 대표적인 유전자 또는 유전자 생성물은, 이하에 제한되는 것은 아니지만, BRCA1, BRCA2, BARD1, PALB2, RAD51, ATM, ATR, RAD51C, RAD51B, NBN, FANCA, FANCD2, FANCM, FANCI, STK11, MRE11A, RAD50, RAD51D, CHEK2, CDH1, RBBP8, BRIP1, PTEN, BLM, TP53, CDK12, EMSY, FANCF, ERCC1, XRCC1, MAD2L2, TP53BP1, XRCC5, XRCC6 및 SFLN11을 포함한다.
베이트 서열의 길이는 약 70개의 뉴클레오타이드 내지 1000개의 뉴클레오타이드일 수 있다. 일 실시형태에서, 베이트 길이는 길이로 약 100 내지 300개의 뉴클레오타이드, 110 내지 200개의 뉴클레오타이드 또는 120 내지 170개의 뉴클레오타이드이다. 상기 언급한 것에 추가로, 길이로 약 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220, 230, 240, 250, 300, 400, 500, 600, 700, 800 및 900개의 뉴클레오타이드의 중간체 올리고뉴클레오타이드 길이가 본 명세서에 기재된 방법에서 사용될 수 있다. 일부 실시형태에서, 약 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220 또는 230개의 염기의 올리고뉴클레오타이드가 사용될 수 있다.
각각의 베이트 서열은 하나 또는 양 말단 상에서 표적-특이적(예를 들어, 구성원-특이적) 베이트 서열 및 보편적 꼬리를 포함할 수 있다. 본 명세서에서 사용된 바와 같은, 용어 "베이트 서열"은 표적-특이적 베이트 서열 또는 표적-특이적 "베이트 서열"을 포함하는 전체 올리고뉴클레오타이드 및 올리고뉴클레오타이드의 다른 뉴클레오타이드를 지칭할 수 있다. 베이트 내 표적-특이적 서열은 길이로 약 40개의 뉴클레오타이드 내지 1000개의 뉴클레오타이드이다. 일 실시형태에서, 표적-특이적 서열은 길이로 약 70개의 뉴클레오타이드 내지 300개의 뉴클레오타이드이다. 다른 실시형태에서, 표적-특이적 서열은 길이로 약 100개의 뉴클레오타이드 내지 200개의 뉴클레오타이드이다. 또 다른 실시형태에서, 표적-특이적 서열은 길이로 약 120개의 뉴클레오타이드 내지 170개의 뉴클레오타이드, 전형적으로 길이로 120개의 뉴클레오타이드이다. 상기 언급한 것에 추가로 중간체 길이는 또한
본 발명에 기재된 방법, 예컨대 길이로 약 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220, 230, 240, 250, 300, 400, 500, 600, 700, 800 및 900개의 뉴클레오타이드의 표적-특이적 서열뿐만 아니라 상기-언급한 길이 사이의 길이의 표적-특이적 서열에서 사용될 수 있다.
일 실시형태에서, 베이트는 길이로 약 50 내지 200개(예를 들어, 길이로 약 50, 60, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 190 또는 200개의 뉴클레오타이드)의 뉴클레오타이드의 올리고머(예를 들어, RNA 올리고머, DNA 올리고머 또는 이들의 조합를 포함)이다. 일 실시형태에서, 각각의 베이트 올리고머는 약 120 내지 170 또는 전형적으로, 약 120개의 뉴클레오타이드를 포함하는데, 이는 표적 특이적 베이트 서열이다. 베이트는 하나 또는 양 말단에서 추가적인 비-표적 특이적 뉴클레오타이드 서열을 포함할 수 있다. 추가적인 뉴클레오타이드 서열은, 예를 들어 PCT 증폭에 대해 또는 베이트 식별자로서 사용될 수 있다. 특정 실시형태에서, 베이트는 추가적으로 본 명세서에 기재된 바와 같은 결합 독립체(예를 들어, 바이오틴 분자와 같은 포획 태그)를 포함한다. 결합 독립체, 예를 들어 바이오틴 분자는, 예를 들어 베이트의 5'-, 3'-말단에서 또는 내부로(예를 들어 바이오틴화된 뉴클레오타이드를 포함함으로써) 베이트에 부착될 수 있다. 일 실시형태에서, 바이오틴 분자는 베이트의 5'-말단에 부착된다.
본 발명에 기재된 베이트 서열은 엑손 및 짧은 표적 서열의 선택을 위해 사용될 수 있다. 일 실시형태에서, 베이트는 길이로 약 100개의 뉴클레오타이드 내지 300개의 뉴클레오타이드이다. 다른 실시형태에서, 베이트는 길이로 약 130개의 뉴클레오타이드 내지 230개의 뉴클레오타이드이다. 또 다른 실시형태에서, 베이트는 길이로 약 150개의 뉴클레오타이드 내지 200개의 뉴클레오타이드이다. 예를 들어 엑손 및 짧은 표적 서열의 선택을 위한 베이트 내 표적-특이적 서열은 길이로 약 40개의 뉴클레오타이드 내지 1000개의 뉴클레오타이드이다. 일 실시형태에서, 표적-특이적 서열은 길이로 약 70개의 뉴클레오타이드 내지 300개의 뉴클레오타이드이다. 다른 실시형태에서, 표적-특이적 서열은 길이로 약 100개의 뉴클레오타이드 내지 200개의 뉴클레오타이드이다. 또 다른 실시형태에서, 표적-특이적 서열은 길이로 약 120개의 뉴클레오타이드 내지 170개의 뉴클레오타이드이다.
일부 실시형태에서, 긴 올리고뉴클레오타이드는 표적 서열을 포획하는데 필요한 올리고뉴클레오타이드의 수를 최소화할 수 있다. 예를 들어, 하나의 올리고뉴클레오타이드는 엑손마다 사용될 수 있다. 인간 게놈 내 단백질-암호 엑손의 평균 및 중앙값 길이는 각각 약 164 내지 120개의 염기쌍이라는 것은 당업계에 공지되어 있다. 더 긴 베이트는 더욱 특이적이며, 더 짧은 것보다 더 양호하게 포획할 수 있다. 그 결과, 올리고뉴클레오타이드 베이트 서열 당 성공률은 짧은 올리고뉴클레오타이드보다 더 높다. 일 실시형태에서, 최소의 베이트로 덮인 서열은, 예를 들어 엑손-크기 표적에 대한 하나의 베이트의 크기(예를 들어, 120 내지 170개의 염기)이다. 베이트 서열의 길이를 결정하는 것에서, 불필요하게 긴 베이트가 표적에 직접적으로 인접한 더 많은 원치않는 DNA를 포획하는 것을 또한 고려할 수 있다. 더 긴 올리고뉴클레오타이드 베이트는 더 짧은 것보다 DNA 샘플 내 표적화된 영역에서 다형성에 대해 더 관대할 수 있다. 전형적으로, 베이트 서열은 기준 게놈 서열로부터 유래된다. 실제 DNA 샘플 내 표적 서열이 기준 서열로부터 벗어난다면, 예를 들어 단일-뉴클레오타이드 다형성(SNP)을 함유한다면, 이는 베이트에 대해 덜 효율적으로 혼성화될 수 있고, 따라서 베이트 서열에 혼성화된 서열에서 실제보다 적게 표시되거나 또는 완전히 없을 수 있다. SNP에 기인하는 대립유전자 드롭-아웃(drop-out)은, 예를 들어 120 내지 170개의 염기에서 단일의 잘못된 쌍이, 멀티플렉스 증폭 및 마이크로어레이 포획에서 각각 전형적인 베이트 또는 프라이머 길이인 20 또는 70개의 염기에서 단일의 잘못된 쌍보다 혼성체 안정성에서 더 적은 효과를 가질 수 있다는 이유로 더 긴 합성 베이트 분자를 지닐 가능성이 더 적을 수 있다.
게놈 영역과 같은 포획 베이트의 길이에 비해서 긴 표적의 선택을 위해, 인접한 서열의 표적화를 최소화하는 유일한 목적을 위해 베이트 서열의 최대 크기를 제한할 필요가 없다는 것을 제외하고, 베이트 서열 길이는 전형적으로 상기 언급한 짧은 표적에 대한 베이트와 동일한 크기 범위에 있다. 대안적으로, 올리고뉴클레오타이드는 훨씬 더 넓은 창(전형적으로 600개의 염기)을 가로질러 타일링될 수 있다. 이 방법은 전형적인 엑손보다 훨씬 더 큰(예를 들어, 약 500개의 염기) DNA단편을 포획하기 위해 사용될 수 있다. 그 결과, 훨씬 더 원치않는 측접하는 비-표적 서열이 선택된다.
혼성화 조건
본 발명에서 특징으로 하는 방법은 라이브러리(예를 들어, 핵산 라이브러리)를 다수의 베이트와 접촉시켜 선택된 라이브러리 캐치를 제공하는 단계를 포함한다. 접촉 단계는 용액 혼성화에서 달성될 수 있다. 특정 실시형태에서, 해당 방법은 용액 혼성화의 하나 이상의 추가적인 라운드에 의해 혼성화 단계를 반복하는 단계를 포함한다. 일부 실시형태에서, 해당 방법은 라이브러리 캐치에 베이트의 동일 또는 상이한 수집물에 의한 용액 혼성화의 하나 이상의 추가적인 라운드를 실시하는 단계를 추가로 포함한다.
다른 실시형태에서, 본 발명에서 특징으로 하는 방법은 라이브러리 캐치를 증폭시키는 단계(예를 들어, PCR에 의해)를 추가로 포함한다. 다른 실시형태에서, 라이브러리 캐치는 증폭되지 않는다.
또 다른 실시형태에서, 해당 방법은 라이브러리 캐치에 지노타이핑(genotyping)을 실시함으로써, 선택된 핵산의 유전형을 확인하는 단계를 추가로 포함한다.
더 구체적으로는, 수천 베이트 서열의 혼합물은 핵산의 그룹에서 상보적 핵산으로 효과적으로 혼성화될 수 있고, 이러한 혼성화된 핵산(핵산의 서브그룹)은 효과적으로 분리되며 회수될 수 있다. 일 실시형태에서, 본 발명에 기재된 방법은 약 1,000 초과의 베이트 서열, 약 2,000 초과의 베이트 서열, 약 3,000 초과의 베이트 서열, 약 4,000 초과의 베이트 서열, 약 5,000 초과의 베이트 서열, 약 6,000 초과의 베이트 서열, 약 7,000 초과의 베이트 서열, 약 8,000 초과의 베이트 서열, 약 9,000 초과의 베이트 서열, 약 10,000 초과의 베이트 서열, 약 15,000 초과의 베이트 서열, 약 20,000 초과의 베이트 서열, 약 30,000 초과의 베이트 서열, 약 40,000 초과의 베이트 서열 또는 약 50,000 초과의 베이트 서열을 함유하는 베이트 서열의 세트를 사용한다.
일부 실시형태에서, 선택 과정은, 예를 들어 선택된 핵산의 풍부함을 증가시키기 위해 핵산의 선택된 서브그룹 상에서 반복된다. 예를 들어, 1 라운드의 혼성화 후, 핵산의 수천 배 풍부화가 관찰될 수 있다. 제2 라운드 후, 풍부화는, 예를 들어 약 15,000-배 평균 풍부화로 상승될 수 있는데, 이는 단일 시퀀서 실행에서 표적의 100-배 커버리지를 제공할 수 있다. 따라서, 혼성체 선택의 단일 라운드에서 달성 가능하지 않은 풍부화 인자가 필요한 실험에 대해, 해당 방법은 전형적으로 핵산의 단리된 서브그룹에(즉, 표적 서열의 일부 또는 모두) 베이스 서열의 세트에 의한 용액 혼성화의 하나 이상의 추가적인 라운드를 실시하는 단계를 포함한다.
2가지 상이한 베이트 서열(베이트 1, 베이트 2)을 갖는 순차적인 혼성체 선택은 "교차지점(intersection)", 즉, 예를 들어, 이하에 제한되는 것은 아니지만, 교차지점을 풍부화하는 단계를 포함하는 적용을 위해 사용되는 베이트 1에 및 베이트 2에 결합된 DNA 서열의 서브그룹을 분리시키고 시퀀싱하기 위해 사용될 수 있다. 예를 들어, 염색체 1 상의 서열에 특이적인 베이트에 의한 종양 샘플로부터 DNA의 선택 다음에 염색체 2에 특이적인 베이트에 혼성화되는 서열의 제1 선택의 생성물로부터의 선택은 두 염색체 모두로부터의 서열을 함유하는 염색체 전위 접합에서 서열을 풍부하게 할 수 있다.
핵산의 선택된 서브그룹의 몰농도는 제어될 수 있으므로, 임의의 특정 핵산의 몰농도는 핵산의 서브그룹에서 모든 선택된 핵산의 평균 몰농도의 작은 변형 내에 있다. 표적 표현의 균일함을 제어하고, 최적화하기 위한 방법은, 이하에 제한되는 것은 아니지만, 물리화학적일 뿐만 아니라 당업계에 잘 공지된 프로브 설계의 경험적 법칙을 기반으로 한 베이트 서열의 합리적 설계 및 기대에 미치지 못한 것으로 알려지거나 또는 의심되는 서열이 본래의 약점을 보상하는 것으로 지나치게 부각된 경우 베이트의 풀을 포함한다. 일부 실시형태에서, 핵산의 분리된 서브그룹의 적어도 약 50%, 60%, 65%, 70%, 75%, 80%, 85%, 90% 또는 95%는 평균 몰농도의 약 20-배, 15-배, 10-배, 5-배, 3-배 또는 2-배 이내이다. 일 실시형태에서, 핵산의 단리된 서브그룹의 적어도 약 50%는 평균 몰농도의 약 3-배 이내이다. 다른 실시형태에서, 핵산의 단리된 서브그룹의 적어도 약 90%는 평균 몰농도의 약 10-배 이내이다.
선택 효율의 변화는 베이트의 농도를 변경시킴으로써 추가로 조절될 수 있다. 일 실시형태에서, 선택 효율은 베이트의 등몰 혼합을 사용할 때 관찰된 차별적인 서열 포획 효율에 대해 베이트의 상대적 존재비 또는 결합 독립체의 밀도(예를 들어, 햅텐 또는 친화도 태그 밀도)를 조절한 다음, 내부-평준화된(leveled) 그룹 2에 비해 전반적인 베이트 혼합에 대해 내부로-평준화된 그룹 1 만큼 차별적인 과량을 도입함으로써 그룹(예를 들어, 제1, 제2 또는 제3 다수의 베이트) 내에서 개개 베이트의 효율을 평준화함으로써 조절된다.
특정 실시형태에서, 본 발명에 기재된 방법은 표적 서열의 균등한 커버리지를 달성할 수 있다. 일 실시형태에서, 예상된 커버리지의 적어도 약 50%를 갖는 표적 염기의 백분율은, 예를 들어 단백질-암호 엑손과 같은 짧은 표적에 대해 적어도 약 60%, 70%, 80% 또는 90%이다. 다른 실시형태에서, 예상된 커버리지의 적어도 약 50%를 갖는 표적 염기의 백분율은, 예를 들어 게놈 영역과 같은 포획 베이트의 길이와 비교하여 긴 표적에 대해 적어도 약 80%, 90% 또는 95%이다.
혼성화 전, 베이트는 당업계에 잘 공지된 방법에 따라 변성될 수 있다. 일반적으로, 혼성화 단계는 표지된 베이트 조성물에 대해 과량의 차단 DNA를 첨가하는 단계, 혼성화 조건 하에 차단 베이트 조성물을 검출된 표적 서열과 접촉시키는 단계, 및 표적에 대한 베이트 조성물의 결합을 검출하는 단계를 포함한다.
베이트는 혼성화 조건 하에서 표적 서열에 대해 혼성화되거나 또는 어닐링된다. "혼성화 조건"은 베이트와 표적핵산 사이의 어닐링을 가능하게 하는 조건이다. 상이한 베이트의 어닐링이 프로브 길이, 염기 농도 등에 의존하여 다를 것이기 때문에, 어닐링은 베이트 농도, 혼성화 온도, 염 농도 및 당업계에 잘 공지된 다른 인자를 다르게 함으로써 가능하게 된다.
혼성화 조건은 농도, 염기 조성, 베이트의 복합체 및 길이뿐만 아니라 염 농도, 온도 및 인큐베이션 길이를 다르게 함으로써 가능하게 된다. 예를 들어, 혼성화는 5x SSPE, 5x 덴하르트(Denhardt's), 5mM EDTA 및 0.1% SDS 및 차단 DNA를 함유하는 혼성화 완충제 중에서 수행되어 비-특이적 혼성화를 억제할 수 있다. 베이트가 RNA라면, RNase 억제제가 사용될 수 있다. 일반적으로, 상기 기재한 바와 같은 혼성화 조건은 약 25℃ 내지 약 65℃, 전형적으로 약 65℃의 온도 및 약 0.5 시간 내지 약 96 시간, 전형적으로 약 66 시간의 인큐베이션 길이를 포함한다. 추가적인 대표적인 혼성화 조건은 본 명세서의 실시예 12A 내지 12C 및 표 14에 있다.
본 명세서에 기재된 방법은 표준 액체 조작 방법 및 장치에 적용가능하다. 일부 실시형태에서, 해당 방법은 멀티웰 플레이트를 조작하는 장치와 같은 당업계에 공지된 것과 같은 자동화된 액체 조작 기법을 사용하여 수행된다(예를 들어, 문헌[Gnirke, A. et al. (2009) Nat Biotechnol. 27(2):182-189] 참조). 이는, 이하에 제한되는 것은 아니지만, 자동화된 라이브러리 구성 및 셋업 및 용액 혼성화 후 세척을 포함하는 용액 혼성화 단계를 포함할 수 있다. 예를 들어, 장치는 비드-포획을 위한 이러한 자동화된 방법 및 용액 혼성화 반응 후 세척 단계를 수행하기 위해 사용될 수 있다. 대표적인 장치는, 이하에 제한되는 것은 아니지만, 다음의 위치를 포함할 수 있다: 스트렙타비딘-코팅된 자기비드를 함유하는 멀티-웰 플레이트에 대한 위치, 용액 혼성체-선택 반응을 함유하는 멀티웰 플레이트에 대한 위치, 사용자-규정 온도에서 세척 단계를 수행하고, 시약을 사전가열하기 위한 I/O 제어된 열 차단, 피펫 끝의 받침대를 위한 위치, 자석-고정된 비드로부터 상청액의 분리를 가능하게 하는 특정 배치로 놓인 자석에 의한 위치, 피펫 팁을 세척하고, 폐기물을 없애는 세척 단계 및 다른 용액 및 시약, 예컨대 낮은 및 높은 엄격 세척 완충제 또는 최종 캐치의 알칼리 용리를 위한 용액에 대한 위치. 일 실시형태에서, 장치는 동시에 캐치 중화 단계를 통한 비드-포획 단계로부터 96 혼성체 선택까지의 과정으로 설계된다. 다른 실시형태에서, 하나 이상의 위치는 이중 기능을 가진다. 또 다른 실시형태에서, 사용자는 하나의 플레이트를 다른 것으로 교환하는 프로토콜에 의해 촉진된다.
직접적으로 선택된 핵산은 연쇄되며, 전단될 수 있는데, 이는 짧은 시퀀싱 리드의 제한을 극복하기 위해 행해진다. 일 실시형태에서, 각각의 엑손-크기 시퀀싱 표적은 표적으로서 동일한 거의 동일한 크기이며, 표적의 종말점 근처의 종말점을 갖는 단일 베이트 분자로 포획된다. 대략 100 이상의 인접한 염기쌍을 갖는 이중가닥 분자를 형성하는 유일한 혼성체는 엄격 혼성화 세척 후 살아남는다. 그 결과, 핵산의 선택된 서브그룹(즉, "캐치")은 말단이 베이트 분자의 말단 근처에 있는 무작위로 전단된 게놈 DNA 단편에 대해 풍부화된다. 매우 짧은 시퀀싱 리드에 의한 "캐치"의 말단만의 시퀀싱은 표적의 말단 근처에서(또는 외부에서조차) 더 높은 커버리지를 제공하며, 중간 근처에서 더 낮은 커버리지를 제공한다.
결찰 다음에 무작위 전단화 및 샷건(shotgun) 시퀀싱에 의해 "캐치" 분자를 연쇄시키는 것은 표적 서열의 전체 길이에 따라 서열 커버리지를 얻는 한 방법이다. 이 방법은 매우 짧은 리드를 갖는 말단 시퀀싱보다 표적 상에서 (근처 표적과 대조적임) 더 높은 백분율의 시퀀싱된 염기를 생성한다. 공동-결찰에 의해 분자를 연쇄시키는 방법은 당업계에 잘 공지되어 있다. 연쇄화는 단순한 평활 말단 결찰에 의해 수행될 수 있다. 효율적인 결찰을 위한 "접착성" 말단은 그것의 5' 말단 근처에서 제한 부위를 갖는 PCR 프라이머를 지니는 "캐치"의 PCR 증폭 다음에 대응되는 제한 효소(예를 들어, NotI)에 의한 분해 또는 T4 DNA 폴리머라제에 의한 부분적 "츄-백(chewback)과 같은 PCR 생성물의 결찰-독립적 클로닝을 위해 보통 사용되는 것과 유사한 전략(Aslanidis and deJong, Nucleic Acids Res. 18:6069-6074, 1990) 또는 UDG 글라이코실라제 및 리아제 엔도 VIII에 의한 유라실-함유 PCR 생성물의 처리(예를 들어, 뉴 잉글랜드 바이오랩스 카탈로그 E5500S)를 포함하는 다양한 방법에 의해생성될 수 있다.
다른 실시형태에서, 베이트 분자의 엇갈린(staggered) 세트는 영역을 표적화하기 위해 사용되며, 표적 영역을 통해 빈번하게 베이트 말단을 얻는다. 일부 실시형태에서, 단지 말단-시퀀싱된 "캐치"(즉, 연쇄화 및 전단없이)는 실제 시퀀싱 표적(예를 들어, 엑손)을 포함하는 베이트에 의해 덮이는 전체 영역에 따라 상당히 균일한 서열 커버리지를 제공한다. 베이트 분자를 엇갈리게 하는 것은 베이트에 의해 덮이는 세그먼트를 넓히기 때문에, 시퀀싱된 염기는 더 넓은 영역에 걸쳐 분포된다. 그 결과, 표적 상의 서열 대 근처 표적의 비는 표적 당 단일 베이트 만을 종종 필요로 하는 비-중복 베이트에 의한 선택에 대해서보다 더 낮다.
다른 실시형태에서, 약간 더 긴 리드(예를 들어, 76개의 염기)을 갖는 말단 시퀀싱은 짧은 선택 표적(예를 들어, 엑손)을 시퀀싱하기 위한 전형적인 방법이다. 매우 짧은 리드에 의한 말단 시퀀싱과 달리, 이 방법은 중간의 커버리지로 낮춰지지 않고 단봉형의 커버리지 프로파일을 유도한다. 이 방법은 상기 기재한 연쇄 및 전단 방법 보다 수행이 더 용이하며, 표적에 따라 상대적으로 균일한 커버리지를 야기하고, 베이트 및 표적 상에 적절하게 떨어지는 높은 백분율의 시퀀싱된 염기를 만들어낸다.
일 실시형태에서, 핵산의 선택된 서브그룹은 시퀀싱 또는 지노타이핑으로 분석하기 전에 증폭된다(예를 들어, PCR에 의해). 다른 실시형태에서, 서브그룹은 증폭 단계 없이, 예를 들어 선택된 서브그룹이 단일 분자를 리드할 수 있는 민감한 분석 방법에 의해 분석될 때 분석된다.
b. 서열분석(sequencing by synthesis)
본 발명은 또한 핵산의 시퀀싱 방법을 포함한다. 이들 방법에서, 핵산 라이브러리 구성원은 본 명세서에 기재된 방법을 사용하여, 예를 들어 용액 혼성화를 사용하여 분리되고, 이에 의해 라이브러리 캐치를 제공한다. 라이브러리 캐치 또는 이것의 서브그룹은 시퀀싱될 수 있다. 따라서, 본 발명에서 특징으로 하는 방법은 라이브러리 캐치를 분석하는 단계를 추가로 포함한다. 일 실시형태에서, 라이브러리 캐치는 시퀀싱 방법, 예를 들어 본 명세서에 기재된 바와 같은 차세대 시퀀싱 방법에 의해 분석된다. 해당 방법은 용액 혼성화에 의해 라이브러리 캐치를 분리시키는 단계 및 라이브러리 캐치에 핵산 시퀀싱을 실시하는 단계를 포함한다. 특정 실시형태에서, 라이브러리 캐치는 재시퀀싱될 수 있다.
당업계에 공지된 임의의 시퀀싱 방법이 사용될 수 있다. 선택 방법에 의해 분리된 핵산의 시퀀싱은 전형적으로는 차세대 시퀀싱(NGS)을 사용하여 수행된다. 차세대 시퀀싱은 개개의 핵산 분자 또는 고도로 유사한 방식으로 개개의 핵산 분자에 대해 클론으로 확장된 프록시 중 하나의 뉴클레오타이드 서열을 결정하는 임의의 시퀀싱 방법을 포함한다(예를 들어, 105개 이상의 분자가 동시에 시퀀싱된다). 일 실시형태에서, 라이브러리 내 핵산 종의 상대적 존재비는 시퀀싱 실험에 의해 만들어진 데이터에서 그것의 동족 서열의 상대적 발생 수를 계측함으로써 추정될 수 있다. 차세대 시퀀싱 방법은 당업계에 공지되어 있고, 예를 들어 본 명세서에 참조로서 포함된 문헌(Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46)에 기재된다.
일 실시형태에서, 차세대 시퀀싱은 개개의 핵산 분자의 뉴클레오타이드 서열 을 결정하기 위해 한다(예를 들어, 헬리코스 바이오사이언스(Helicos BioSciences)의 헬리스코프 유전자 시퀀싱 시스템(HeliScope Gene Sequencing system) 및 퍼시픽바이오사이언스의 팩바이오 알에스 시스템(PacBio RS system)). 다른 실시형태에서, 시퀀싱, 예를 들어, 더 적지만 더 긴 리드를 만들어내는 다른 시퀀싱 방법보다 시퀀싱 단위 당 서열의 더 많은 염기를 만들어내는 대량병렬의 짧은-리드 시퀀싱(예를 들어, 캘리포니아주 샌디에고에 소재한 일루미나 인코포레이티드(Illumina Inc.) 솔렉사 시퀀서(Solexa sequencer)) 방법은 개개의 핵산 분자에 대해 클론으로 확장된 프록시의 뉴클레오타이드 서열을 결정한다(예를 들어, 캘리포니아주 샌디에고에 소재한 일루미나 인코포레이티드(Illumina Inc.) 솔렉사 시퀀서(Solexa sequencer); 454 라이프 사이언스(Life Sciences)(코네티컷주 브랜포드에 소재) 및 아이온 토렌트(Ion Torrent)). 차세대 시퀀싱을 위한 다른 방법 또는 기계는, 이하에 제한되는 것은 아니지만, 454 라이프 사이언스(Life Sciences)(코네티컷주 브랜포드에 소재), 어플라이드 바이오시스템스(캘리포니아주 포스터 시티에 소재; SOLiD 시퀀서), 헬리코스 바이오사이언스 코포레이션(매사추세츠주 캠브릿지에 소재) 및 에멀젼 및 마이크로 유동 시퀀싱 기법 나노 점적(예를 들어, 지누바이오(GnuBio) 점적)에 의해 제공된다.
차세대 시퀀싱을 위한 플랫폼은, 이하에 제한되는 것은 아니지만, 로슈(Roche)/454의 게놈 시퀀서(Genome Sequencer: GS) FLX 시스템, 일루미나(Illumina)/솔렉사(Solexa) 게놈 분석기(Genome Analyzer: GA), 라이프(Life)/APG의 서포트 올리고(Support Oligonucleotide Ligation Detection: SOLiD) 시스템, 폴로네이터(Polonator)의 G.007 시스템, 헬리코스 바이오사이언스의 헬리스코프 유전자 시퀀싱 시스템(Helicos BioSciences' HeliScope Gene Sequencing system) 및 퍼시픽 바이오사이언스(Pacific Biosciences)의 팩바이오알에스(PacBio RS) 시스템을 포함한다.
NGS 테크놀로지스는, 예를 들어 주형 제조, 시퀀싱 및 이미징 및 데이터 분석 단계 중 하나 이상을 포함할 수 있다.
주형 제조. 주형 제조를 위한 방법은 핵산(예를 들어, 게놈 DNA 또는 cDNA)을 작은 크기로 무작위로 파괴하는 단계 및 시퀀싱 주형(예를 들어, 단편 주형 또는 메이트-쌍 주형)을 만드는 단계와 같은 단계들을 포함할 수 있다. 공간적으로 분리된 주형은 고체 표면 또는 지지체에 부착되거나 또는 고정될 수 있는데, 이는 대량의 시퀀싱 반응이 동시에 수행되도록 한다. NGS 반응을 위해 사용될 수 있는 주형의 유형은, 예를 들어 단일 DNA 분자로부터 유래된 클론이 증폭된 주형 및 단일 DNA 분자 주형을 포함한다.
클론이 증폭된 주형의 제조방법은, 예를 들어 에멀젼 PCR(emulsion PCR: emPCR) 및 고체상 증폭을 포함한다.
EmPCR은 NGS를 위한 주형을 제조하기 위해 사용될 수 있다. 전형적으로, 핵산 단편의 라이브러리가 만들어지며, 보편적 프라이밍 부위를 함유하는 어댑터는 단편의 말단에 결찰된다. 그 다음에 단편은 단일 가닥으로 변성되고, 비드에 의해 포획된다. 각 비드는 단일 핵산 분자를 포획한다. 증폭 및 emPCR 비드의 풍부화 후, 다량의 주형이 부착될 수 있고, 표준 현미경 슬라이드(예를 들어, 폴로네이터(Polonator)) 상에서 폴리아크릴아마이드 겔에 고정되며, 아미노-코팅된 유리 표면(예를 들어, Life/APG; 폴로네이터(Polonator))에 화학적으로 가교되거나, 또는 개개의 피코타이터플레이트(PicoTiterPlate: PTP) 웰(예를 들어, 로슈(Roche)/454) 상에 증착되는데, 이때 NGS 반응이 수행될 수 있다.
고체상 증폭이 또한 사용되어 NGS를 위한 주형을 생성할 수 있다. 전형적으로, 전방 및 후방 프라이머는 고체지지체에 공유적으로 부착된다. 증폭된 단편의 표면 밀도는 지지체 상에서 프라이머 대 주형의 비로써 정의된다. 고체상 증폭은 수백만개의 공간적으로 분리된 주형 클러스터(예를 들어, 일루미나/솔렉사(Illumina/Solexa))를 생성할 수 있다. 주형 클러스터의 말단은 NGS 반응을 위한 보편적 프라이머에 혼성화될 수 있다.
클론으로 증폭된 주형의 제조를 위한 다른 방법은, 예를 들어 다중 치환 증폭(Multiple Displacement Amplification: MDA)(Lasken R. S. Curr Opin Microbiol. 2007; 10(5):510-6)을 포함한다. MDA는 비-PCR 기반 DNA 증폭 기법이다. 반응은 주형에 대해 무작위 헥사머 프라이머를 어닐링하는 단계 및 일정한 온도에서 고충실도 효소, 전형적으로 Ф29에 의해 DNA를 합성하는 단계를 수반한다. MDA는 더 낮은 오류 빈도로 거대한 크기의 생성물을 만들 수 있다.
PCR과 같은 주형 증폭 방법은 표적에 NGS 플랫폼을 결합시킬 수 있거나 또는 게놈의 특이적 영역을 풍부화할 수 있다(예를 들어, 엑손). 대표적인 주형 풍부화 방법은, 예를 들어 마이크로점적 PCR 기법(Tewhey R. et al., Nature Biotech. 2009, 27:1025-1031), 맞춤-설계된 올리고뉴클레오타이드 마이크로어레이(예를 들어, 로슈(Roche)/님블젠(NimbleGen) 올리고뉴클레오타이드 마이크로어레이) 및 용액-기반 혼성화 방법(예를 들어, 분자역위 프로브(molecular inversion probe: MIP))(Porreca G. J. et al., Nature Methods, 2007, 4:931-936; Krishnakumar S. et al., Proc. Natl. Acad. Sci. USA, 2008, 105:9296-9310; Turner E. H. et al., Nature Methods, 2009, 6:315-316) 및 바이오틴화된 RNA 포획 서열(Gnirke A. et al., Nat. Biotechnol. 2009;27(2):182-9)을 포함한다.
단일-분자 주형은 NGS 반응을 위해 사용될 수 있는 주형의 다른 유형이다. 공간적으로 분리된 단일 분자 주형은 다양한 방법에 의해 고체 지지체 상에 고정될 수 있다. 한 접근에서, 개개의 프라이머 분자는 고체 지지체에 공유적으로 부착된다. 어댑터는 주형에 첨가되고, 주형은 그 다음에 고정된 프라이머에 혼성화된다. 다른 접근에서, 단일-분자 주형은 고정된 프라이머로부터 단일-가닥의 단일-분자 주형을 프라이밍하고 연장시킴으로써 고체 지지체에 공유적으로 부착된다. 그 다음에 보편적 프라이머는 주형에 혼성화된다. 또 다른 접근에서, 단일 폴리머라제 분자는 프라이밍된 주형이 결합된 고체 지지체에 부착된다.
시퀀싱 및 이미징. NGS를 위한 대표적인 시퀀싱 및 이미징 방법은, 이하에 제한되는 것은 아니지만, 사이클릭 가역적 종결(cyclic reversible termination: CRT), 결찰에 의한 시퀀싱(sequencing by ligation: SBL), 단일-분자 첨가(파이로시퀀싱(pyrosequencing)) 및 실시간 시퀀싱을 포함한다.
CRT는 뉴클레오타이드 포함, 형광 이미징 및 절단 단계를 최소로 포함하는 사이클릭 방법에서 가역 종결자를 사용한다. 전형적으로, DNA 폴리머라제는 프라이머에 주형 염기의 상보적 뉴클레오타이드에 대해 상보적인 단일의 형광으로 변형된 뉴클레오타이드를 포함시킨다. DNA 합성은 단일 뉴클레오타이드의 첨가 후 종결되고, 미포함된 뉴클레오타이드는 세척된다. 포함된 표지 뉴클레오타이드의 동일성을 결정하기 위해 이미징이 수행된다. 그 다음에, 절단 단계에서, 종결/억제기 및 형광 염료는 제거된다. CRT 방법을 사용하는 대표적인 NGS 플랫폼은, 이하에 제한되는 것은 아니지만, 전체 내부 반사 형광(total internal reflection fluorescence: TIRF)에 의해
검출된 4-색 CRT 방법과 결합된 클론으로 증폭된 주형 방법을 사용하는 일루미나(Illumina)/솔렉사(Solexa) 게놈 분석기(GA); 및 TIRF에 의해 검출된 1-색 CRT 방법과 결합된 단일-분자 주형 방법을 사용하는 헬리코스 바이오사이언스(Helicos BioSciences)/헬리스코프(HeliScope)를 포함한다.
SBL은 시퀀싱을 위해 DNA 리가제 및 1-염기-암호화된 프로브 또는 2-염기-암호화된 프로브 중 하나를 사용한다.
전형적으로, 형광 표지된 프로브는 프라이밍된 주형에 인접한 상보적 서열에 혼성화된다. DNA 리가제는 프라이머에 염료-표지된 프로브를 결찰시키기 위해 사용된다. 비-결찰 프로브가 세척된 후 결찰된 프로브의 동일성을 결정하기 위하여 형광 이미징이 수행된다. 형광 염료는 후속의 결찰 주기를 위해 5'-PO4 기를 재생하는 절단가능한 프로브를 사용하여 제거될 수 있다. 대안적으로, 새로운 프라이머는 오래된 프라이머가 제거된 후 주형에 혼성화될 수 있다. 대표적인 SBL 플랫폼은, 이하에 제한되는 것은 아니지만, 라이프(Life)/APG/SOLiD(지지체 올리고뉴클레오타이드 결찰 검출)를 포함하는데, 이는 2-염기-암호화된 프로브를 사용한다.
파이로시퀀싱 방법은 다른 화학발광 효소로 DNA 폴리머라제의 활성을 검출하는 단계를 기반으로 한다. 전형적으로, 해당 방법은 한 번에 하나의 염기쌍을 따라 상보적 가닥을 합성하고, 각 단계에서 실제로 첨가된 염기를 검출함으로써 DNA의 단일 가닥을 시퀀싱시킨다. 주형 DNA는 고정적이며, A, C, G 및 T 뉴클레오타이드의 용액은 순차적으로 첨가되고, 반응으로부터 제거된다. 빛은 단지 뉴클레오타이드 용액이 주형의 짝지어지지 않은 염기를 보충할 때에만 생성된다. 화학발광 신호를 생성하는 용액의 서열은 주형의 서열을 결정하게 한다. 대표적인 파이로시퀀싱 플랫폼은, 이하에 제한되는 것은 아니지만, PTP 웰에 증착된 백만 내지 2백만개의 비드에 의한 emPCR에 의해 제조된 DNA 주형을 사용하는 로슈(Roche)/454를 포함한다.
실시간 시퀀싱은 DNA 합성 동안 염료-표지된 뉴클레오타이드의 연속적 포함을 이미징하는 단계를 수반한다. 대표적인 실시간 시퀀싱 플랫폼은, 이하에 제한되는 것은 아니지만, 포스페이트 연결된 뉴클레오타이드가 성장되는 프라이머 가닥에 포함될 때 서열 정보를 얻기 위한 개개의 0-모드 웨이브가이드(zero-mode waveguide, ZMW)
검출기의 표면에 부착된 DNA 폴리머라제 분자를 사용하는 퍼시픽 바이오사이언스 플랫폼(Pacific Biosciences); 형광 공명 에너지 전달(fluorescence resonance energy transfer, FRET)에 의한 뉴클레오타이드 포함 후 향상된 신호를 만들기 위해 부착된 형광 염료와 함께 유전자 조작된 DNA 폴리머라제를 사용하는 라이프(Life)/비시겐(VisiGen) 플랫폼; 및 시퀀싱 반응에서 염료-퀀처 뉴클레오타이드를 사용하는 LI-COR 바이오사이언스(Biosciences) 플랫폼을 포함한다.
NGS의 다른 시퀀싱 방법은, 이하에 제한되는 것은 아니지만, 나노포어 시퀀싱, 혼성화에 의한 시퀀싱, 나노-트랜지스터 어레이 기반 시퀀싱, 폴로니(polony) 시퀀싱, 주사형전자 터널링 현미경(scanning tunneling microscopy, STM) 기반 시퀀싱 및 나노와이어-분자 센서 기반 시퀀싱을 포함한다.
나노포어 시퀀싱은 단일-핵산 폴리머에서 분석될 수 있는 고도로 밀폐된 공간을 제공하는 나노-규모 포어를 통해서 용액 중의 핵산 분자의 전기영동을 수반한다. 나노포어 시퀀싱의 대표적인 방법은, 예를 들어 문헌[Branton D. et al., Nat Biotechnol. 2008; 26(10):1146-53]에 기재된다.
혼성화에 의한 시퀀싱은 DNA 마이크로어레이를 사용하는 비-효소적 방법이다. 전형적으로, DNA의 단일 풀은 형광으로 표지되며, 공지된 서열을 함유하는 어레이에 혼성화된다. 어레이 상의 주어진 스팟으로부터 혼성화 신호는 DNA 서열을 확인할 수 있다. DNA 이중-가닥에서 DNA 중 한 가닥의 그것의 상보적 가닥에 결합은 혼성체 영역이 짧거나 또는 구체된 미스매치 검출 단백질이 존재할 때, 단일-염기 미스매치에 대해서 조차도 민감하다. 혼성화에 의한 시퀀싱의 대표적인 방법은, 예를 들어 문헌(Hanna G.J. et al., J. Clin. Microbiol. 2000; 38(7): 2715-21; 및 Edwards J.R. et al., Mut. Res. 2005; 573(1-2): 3-12)에 기재된다.
폴로니 시퀀싱은 폴로니 증폭 및 다중 단일-염기-연장(FISSEQ)을 통해 시퀀싱에 따르는 것을 기반으로 한다. 폴로니 증폭은 폴리아크릴아마이드 필름 상에서 인시츄로 DNA를 증폭시키는 방법이다. 대표적인 폴로니 시퀀싱 방법은, 예를 들어 미국특허 출원 공개 제2007/0087362호에 기재된다.
탄소나노튜브 전계 효과 트랜지스터(Carbon NanoTube Field Effect Transistor: CNTFET)와 같은 나노-트랜지스터 어레이 기반 장치가 또한 NGS를 위해 사용될 수 있다. 예를 들어, DNA 분자는 신장되고, 마이크로-제작된 전극에 의해 나노튜브에 걸쳐 구동된다. DNA 분자는 탄소 나노튜브 표면과 순차적으로 접촉하게 되고, DNA 분자와 나노튜브 사이의 전하 전달에 기인하여 각 염기로부터의 전류 흐름의 차이가 만들어진다. DNA는 이들 차이를 기록함으로써 시퀀싱된다. 대표적인 나노-트랜지스터 어레이 기반 시퀀싱 방법은, 예를 들어 미국특허 공개 제2006/0246497호에 기재된다.
주사형전자 터널링 현미경(STM)은 또한 NGS를 위해 사용될 수 있다. STM은 표본의 래스터 주사(raster scan)를 수행하는 피에조-전자-제어 프로브를 사용하여 그것 표면의 이미지를 형성한다. STM은, 예를 들어 작동기-구동 가요성 갭과 주사형전자 터널링 현미경을 통합시킴으로써 일관된 전자 터널링 이미징 및 분광학을 만드는 단일 DNA 분자의 물리적 특성을 이미징하기 위해 사용될 수 있다. STM을 사용하는 대표적인 시퀀싱 방법은, 예를 들어 미국특허출원 공개 제2007/0194225호에 기재된다.
나노와이어-분자 센서로 구성된 분자-분석 장치가 또한 NGS를 위해 사용될 수 있다. 이러한 장치는 DNA와 같은 나노와이어 및 핵산 분자에 배치된 질소성 물질의 상호작용을 검출할 수 있다. 분자 가이드는 상호작용 및 후속하는 검출을 허용하기 위해 분자 센서 근처의 분자를 가이딩하기 위해 배치된다. 나노와이어-분자 센서를 사용하는 대표적인 시퀀싱 방법은 예를 들어 미국특허 출원 공개 제2006/0275779호에 기재된다.
이중 말단의 시퀀싱 방법이 NGS를 위해 사용될 수 있다. 이중 말단 시퀀싱은 DNA의 센스와 안티센스 가닥 둘 다를 시퀀싱하기 위해 차단 및 미차단 프라이머를 사용한다. 전형적으로, 이들 방법은 핵산의 제1 가닥에 미차단 프라이머를 어닐링시키는 단계; 핵산의 제2 가닥에 제2의 차단 프라이머를 어닐링 시키는 단계; 폴리머라제로 제1 가닥을 따라 핵산을 연장시키는 단계; 제1 시퀀싱 프라이머를 종결시키는 단계; 제2 프라이머를 차단해제(deblocking)하는 단계; 및 제2 가닥을 따라 핵산을 연장시키는 단계를 포함한다. 대표적인 이중 가닥 시퀀싱 방법은, 예를 들어 미국특허 제7,244,567호에 기재된다.
데이터 분석. NGS 리드가 만들어진 후, 그것들은 공지된 기준 서열에 대해 정렬되거나 데노보 조립된다.
예를 들어, 샘플(예를 들어, 종양 샘플)에서 단일-뉴클레오타이드 다형성 및 구조적 변이체와 같은 유전적 변형을 확인하는 것은 기준 서열(예를 들어, 야생형 서열)에 대해 NGS 리드를 정렬함으로써 수행될 수 있다. NGS에 대한 서열 정렬방법은, 예를 들어 문헌[Trapnell C. and Salzberg S.L. Nature Biotech., 2009, 27:455-457]에기재된다.
드노보 조립체의 예는, 예를 들어 문헌(Warren R. et al., Bioinformatics, 2007, 23:500-501; Butler J. et al., Genome Res., 2008, 18:810-820; 및 Zerbino D.R. 및 Birney E., Genome Res., 2008, 18:821-829)에 기재된다.
서열 정렬 또는 어셈블리는 하나 이상의 NGS 플랫폼으로부터의 리드 데이터를 사용하여, 예를 들어 로슈(Roche)/454 및 일루미나(Illumina)/솔렉사(Solexa) 리드 데이터를 혼합하여 수행될 수 있다.
d. 서열 정렬(alignment)
일반
정렬은 위치, 예를 들어 게놈 위치와 리드를 매칭시키는 과정이다. 정렬불량(예를 들어, 게놈 내 정확하지 않은 위치 상에서 짧은 리드로부터 염기쌍의 위치), 예를 들어, 실제 암 돌연변이 주위 리드의 서열 콘텍스트(예를 들어, 반복 서열의 존재)에 기인하는 정렬불량은 돌연변이 검출의 민감의 감소를 야기할 수 있는데, 대안의 대립유전자의 리드가 대안의 대립유전자 리드의 주요 파일업(pile-up)을 피할 수 있기 때문이다. 실제 돌연변이가 존재하지 않는 경우 문제의 서열 콘텍스트가 생긴다면, 미스-정렬은 잘못된 위치 상에 기준 게놈 염기의 실제 리드를 위치시킴으로써 "돌연변이된" 대립유전자의 인공 리드를 도입할 수 있다. 다중의 다유전자 분석을 위한 돌연변이-호출 알고리즘이 심지어 낮은-존재비 돌연변이에 대해 민감하여야 하기 때문에, 이들 정렬불량은 위양성 발견율을 증가시키고/특이성을 감소시킬 수 있다.
본 명세서에서 논의되는 바와 같이, 실제 돌연변이에 대해 감소된 민감성은 분석되는 유전자에서 예상되는 돌연변이 부위 주변의 정렬(수동으로 또는 자동화된 방식으로)의 품질을 평가함으로써 처리될 수 있다. 평가될 수 있는 부위는 암 돌연변이(예를 들어, COSMIC)의 데이터베이스로부터 얻어질 수 있다. 문제가 있는 것으로 확인된 영역은 더 느리지만, 더 정확한 정렬 알고리즘, 예컨대 스미스-워터만(Smith-Waterman) 정렬을 사용하여, 예를 들어 정렬 최적화(또는 재정렬)에 의해 적절한 서열 콘텍스트에서 더 양호한 수행을 제공하기 위해 선택된 알고리즘의 사용에 의해 교정될 수 있다. 일반적 정렬 알고리즘이 문제를 교정할 수 없는 경우에, 맞춤 정렬 접근은, 예를 들어 치환을 함유할 가능성이 높은 유전자에 대해 최대 차이 미스매치 패널티 변수의 조절에 의해; 특정 종양 유형(예를 들어, 흑색종에서 C→T)에서 흔한 특이적 돌연변이 유형에 기반한 특이적 미스매치 페널티 변수를 조절함으로써; 또는 특정 샘플 유형에서 흔한(예를 들어, FFPE에서 흔한 치환) 특이적 돌연변이 유형에 기반한 특이적 미스매치 패널티 변수를 조절함으로써 만들어질 수 있다. 미스-정렬에 기인하여 평가된 유전자 영역 내의 감소된 특이성(증가된 위양성률)은 시퀀싱된 샘플 내 모든 돌연변이 호출의 수동의 또는 자동화된 시험에 의해 평가될 수 있다. 미스-정렬에 기인하여 비논리적 돌연변이 호출이 되기 쉬운 것으로 발견된 해당 영역은 상기와 같은 동일 정렬 교정이 실시될 수 있다. 가능한 알고리즘 교정이 발견되지 않은 경우, 문제 영역으로부터의 "돌연변이"는 시험 패널로부터 분류되거나 또는 스크리닝될 수 있다.
삽입/결실(삽입-결실)
일반적으로, 삽입-결실 돌연변이의 정확한 검출은 정렬에서 실행되는데, 본 명세서에서 망가진 시퀀싱 플랫폼 상의 비논리적 삽입-결실률이 상대적으로 낮기 때문이다(따라서, 정확하게 정렬된 삽입-결실의 몇 안 되는 관찰 조차도 돌연변이의 강한 증거가 될 수 있다). 그러나 삽입-결실의 존재에서 정확한 정렬은 어려울 수 있다(특히 삽입-결실 길이가 증가함에 따라). 정렬과 관련된 일반적 문제, 예를 들어 치환에 추가로, 삽입-결실 그 자체는 정렬에 의한 문제를 야기할 수 있다. (예를 들어, 다이뉴클레오타이드 반복체의 2bp의 결실은 용이하게 명확하게 위치될 수 없다.) 민감성과 특이성은 둘 다 더 짧은(<15bp) 명확한 삽입-결실-함유 리드의 부정확한 배치에 의해 감소될 수 있다. 더 큰 삽입-결실(개개의 리드 길이에 대한 규모에서 더 가깝게 됨)은 리드를 정렬시키는 것에서 어쨌든 실패를 야기할 수 있는데, 이는 정렬된 리드의 표준 세트에서 불가능한 삽입-결실의 검출을 제공한다.
암 돌연변이의 데이터베이스는 이들 문제를 처리하고, 성능을 개선시키기 위해 사용될 수 있다. 위양성 삽입-결실 발견을 감소시키기 위해(특이성을 개선시키기 위해), 보통 예상되는 삽입-결실 주위의 영역은 서열 콘텍스트에 기인하는 문제가 있는 정렬에 대해 시험될 수 있고, 상기 치환과 유사하게 처리될 수 있다. 삽입-결실 검출의 민감성을 개선시키기 위해, 암에서 예상되는 삽입-결실에 대한 정보를 사용하여 몇몇 상이한 접근이 사용된다. 예를 들어, 예상된 삽입-결실을 함유하는 짧은-리드는 자극되고, 정렬이 시도된다. 정렬은 연구될 수 있고, 문제가 있는 삽입-결실 영역은, 예를 들어 갭 개방/확장 페널티를 감소시키거나 또는 부분적 리드(예를 들어, 리드의 제1 또는 제2의 절반)을 정렬시킴으로써 조절된 정렬 변수를 가질 수 있다.
대안적으로, 초기 정렬은 정상 기준 게놈에 의할 뿐 아니라 공지되거나 또는 가능성이 있는 암 삽입-결실 돌연변이를 각각 함유하는 게놈의 또 다른 형태에 의해 시도될 수 있다. 이 접근에서, 초기에 정렬되지 않거나 또는 부정확하게 정렬된 삽입-결실의 리드는 게놈의 대안의(돌연변이된) 형태 상에 성공적으로 위치된다.
이 방법으로, 삽입결실 정렬(및 따라서 호출)은 예상된 암 유전자/부위에 대해 최적화될 수 있다.
조정
조정: 서열 정렬 알고리즘
본 명세서에서 사용된 바와 같은 서열 정렬 알고리즘은 게놈에서 리드 서열(예를 들어, 차세대 시퀀싱으로부터의, 예를 들어 짧은-리드 서열)이 대부분 리드 서열과 기준 서열 사이의 유사성을 평가함으로써 유래될 가능성이 있는 경우로부터 동일성에 대해 사용되는 컴퓨터적 방법 또는 접근을 포함한다. 서열 정렬 문제에 다양한 알고리즘이 적용될 수 있다. 일부 알고리즘은 상대적으로 느리지만, 상대적으로 높은 특이성을 허용한다. 이들은, 예를 들어 역동적 프로그래밍-기반 알고리즘을 포함한다. 역동적 프로그래밍은 그것들이 더 간단한 단계로 나누어짐으로써 복잡한 문제를 해결하는 방법이다. 다른 접근은 상대적으로 더 효율적이지만, 전형적으로 철저하지 않다. 이는, 예를 들어 대량 데이터베이스 검색을 위해 설계된 휴리스틱(heuristic) 알고리즘 및 확률적(probabilistic) 방법을 포함한다.
전형적으로, 정렬 과정에 두 단계가 있을 수 있다: 후보자 검사 및 서열 정렬. 후보자 검사는 가능한 정렬 위치의 더 짧은 열거에 대해 전체 게놈으로부터 서열 정렬을 위한 검색 공간을 감소시킨다. 용어가 시사하는 바와 같이 서열 정렬은 후보자 검사 단계에 제공된 서열을 갖는 서열을 정렬시키는 단계를 포함한다. 이는 광역 정렬(예를 들어, 니들만-분쉬(Needleman-Wunsch) 정렬) 또는 국소 정렬(예를 들어, 스미스-워터만 정렬)을 사용하여 수행될 수 있다.
대부분의 속성 정렬 알고리즘은 색인 방법에 기반한 3가지 유형 중 하나를 특징으로 할 수 있다: 해쉬 테이블(예를 들어, BLAST, ELAND, SOAP), 접미사트리(예를 들어, Bowtie, BWA) 및 병합 정렬(예를 들어, 슬라이더(Slider))에 기반한 알고리즘. 짧은 리드 서열은 정렬을 위해 전형적으로 사용된다. 짧은-리드 서열에 대한 서열 정렬 알고리즘/프로그램의 예는, 이하에 제한되는 것은 아니지만, BFAST (Homer N. et al., PLoS One. 2009;4(11):e7767), BLASTN(월드 와이드 웹상의 blast.ncbi.nlm.nih.gov에서), BLAT(Kent W.J. Genome Res. 2002;12(4):656-64), 보타이(Bowtie)(Langmead B. et al., Genome Biol. 2009;10(3):R25), BWA(Li H. and Durbin R. Bioinformatics, 2009, 25:1754-60), BWA-SW(Li H. and Durbin R. Bioinformatics, 2010;26(5):589-95), 클라우드버스트(CloudBurst)(Schatz M.C. Bioinformatics. 2009;25(11):1363-9), 코로나 라이트(Corona Lite)(Applied Biosystems, Carlsbad, California, USA), CASHX(Fahlgren N. et al., RNA, 2009; 15, 992-1002), CUDA-EC (Shi H. et al., J Comput Biol. 2010;17(4):603-15), ELAND(월드 와이드 웹상의 bioit.dbi.udel.edu/howto/eland에서), GNUMAP(Clement N.L. et al., Bioinformatics. 2010;26(1):38-45), GMAP(Wu T.D. and Watanabe C.K. Bioinformatics. 2005;21(9):1859-75), GSNAP(Wu T.D. and Nacu S., Bioinformatics. 2010;26(7):873-81), 제니오스 어셈블러(Geneious Assembler)(뉴질랜드 오클랜드에 소재한 Biomatters Ltd.), LAST, MAQ(Li H. et al., Genome Res. 2008;18(11):1851-8), Mega-BLAST(월드 와이드 웹 상의 ncbi.nlm.nih.gov/blast/megablast.shtml에서), MOM(Eaves H.L. and Gao Y. Bioinformatics. 2009;25(7):969-70), MOSAIK(월드 와이드 웹 상의 bioinformatics.bc.edu/marthlab/Mosaik에서), 노보얼라인(Novoalign)(월드 와이드 웹 상의 novocraft.com/main/index.php에서), 팔맵퍼(PALMapper)(월드 와이드 웹 상의 fml.tuebingen.mpg.de/raetsch/suppl/palmapper에서), PASS(Campagna D. et al., Bioinformatics. 2009;25(7):967-8), PatMaN(Prufer K. et al., Bioinformatics. 2008; 24(13):1530-1), PerM(Chen Y. et al., Bioinformatics, 2009, 25 (19): 2514-2521), ProbeMatch(Kim Y.J. et al., Bioinformatics. 2009;25(11):1424-5), QPalma(de Bona F. et al., Bioinformatics, 2008, 24(16): i174), RazerS(Weese D. et al., Genome Research, 2009, 19:1646-1654), RMAP (Smith A.D. et al., Bioinformatics. 2009;25(21):2841-2), SeqMap(Jiang H. et al. Bioinformatics. 2008;24:2395-2396.), Shrec(Salmela L., Bioinformatics. 2010;26(10):1284-90), SHRiMP(Rumble S.M. et al., PLoS Comput. Biol., 2009, 5(5):e1000386), SLIDER(Malhis N. et al., Bioinformatics, 2009, 25 (1): 6-13), 슬림 서치(SLIM Search)(Muller T. et al., Bioinformatics. 2001;17 Suppl 1:S182-9), SOAP(Li R. et al., Bioinformatics. 2008;24(5):713-4), SOAP2(Li R. et al., Bioinformatics. 2009;25(15):1966-7), SOCS(Ondov B.D. et al., Bioinformatics, 2008; 24(23):2776-7), SSAHA(Ning Z. et al., Genome Res. 2001;11(10):1725-9), SSAHA2(Ning Z. et al., Genome Res. 2001;11(10):1725-9), 스탬피(Stampy)(Lunter G. and Goodson M. Genome Res. 2010, epub ahead of print), 타이판(Taipan)(월드 와이드 웹 상의 taipan.sourceforge.net에서), UGENE(월드 와이드 웹 상의 ugene.unipro.ru에서), XpressAlign(월드 와이드 웹 상의 bcgsc.ca/platform/bioinfo/software/XpressAlign에서), 및 ZOOM(캐나다 온타리오주 워터루에 소재한 바이오인포매틱스 솔루션 인코포레이티드(Bioinformatics Solutions Inc.))을 포함한다.
서열 정렬 알고리즘은, 예를 들어 시퀀싱 기법, 리드 길이, 리드 수, 입수가능한 컴퓨팅 자료 및 민감성/스코어링 필요조건을 포함하는 다수의 인자에 기반하여 선택될 수 있다. 상이한 서열 정렬 알고리즘은 상이한 속도 수준, 정렬 민감성 및 정렬 특이성을 달성할 수 있다. 정렬 특이성은 예측된 정렬과 비교하여 정확하게 정렬된 전형적으로 서브미션에서 발견되는 바와 같이 정렬된 표적 서열 잔기의 백분율을 지칭한다. 정렬 민감성은 또한 서브미션에서 정확하게 정렬된 보통 예측된 정렬에서 발견되는 바와 같이 정렬된 표적 서열 잔기의 백분율을 지칭한다.
정렬 알고리즘, 예컨대 ELAND 또는 SOAP는 속도가 고려되는 제1 인자일 때 기준 게놈에 대해 짧은 리드(예를 들어, 일루미나(Illumina)/솔렉사(Solexa) 시퀀서제)을 정렬하는 목적으로 사용될 수 있다. BLAST 또는 Mega-BLAST와 같은 정렬 알고리즘은 특이성이 가장 중요한 인자일 때, 이들 방법이 상대적으로 더 느리지만, 짧은 판독(예를 들어, 로슈(Roche) FLX제)을 사용하여 유사성 조사의 목적을 위해 사용될 수 있다. MAQ 또는 노보얼라인(Novoalign)와 같은 정렬 알고리즘은 품질 스코어를 고려하며, 따라서 정확성이 본질을 가질 때 단일- 또는 짝지어진-말단 데이터에 대해 사용될 수 있다(예를 들어, 고속-대량 SNP 검색에서). 보타이(Bowtie) 또는 BWA와 같은 정렬 알고리즘은 버로우즈-휠러 변환(Burrows-Wheeler Transform: BWT)을 사용하며, 따라서 상대적으로 작은 메모리 풋프린트(memory footprint)를 필요로 한다. BFAST, PerM, SHRiMP, SOCS 또는 ZOOM과 같은 정렬 알고리즘은 색공간 리드를 맵핑하며, 따라서 ABI의 SOLiD 플랫폼과 함께 사용될 수 있다. 일부 적용에서, 2 이상의 정렬 알고리즘으로부터의 결과가 조합될 수 있다.
조정: 정렬 변수
정렬 변수는 알고리즘의 성능을 조절하기 위해, 예를 들어 리드 서열과 기준 서열 사이의 최적의 광역 또는 국소 알고리즘을 생성하기 위해 정렬 알고리즘에서 사용된다. 정렬 변수는 매치, 미스매치 및 삽입-결실을 위한 가중치를 제공할 수 있다. 예를 들어, 더 낮은 가중치는 더 많은 미스매치 및 삽입-결실을 가지는 정렬을 허용한다.
정렬 변수의 예는, 이하에 제한되는 것은 아니지만, 매치 보상, 미스매치 페널티, 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티), 예상 역치, 단어 크기, 필터 또는 마스크를 포함한다.
예를 들어, 갭 페널티는 정렬이 리드 서열 또는 기준 서열에서 삽입에 의해 파괴되었을 때 정렬 스코어를 감소시키도록 설계된다. 갭 페널티는 서열 내 일부 다른 이웃하는 지점에서 잔기 대 잔기의 양호한 정렬을 달성하는 것이 가능할 때, 정렬 내 갭 또는 삽입이 허용되는지 여부의 결정을 돕기 위해 사용될 수 있다. 특히, 페널티는 각각의 개방된 갭("갭 오프닝" 페널티)에 대한 스코어 및 비용을 곱한 갭 공간의 전체 수("갭 익스텐션" 페널티)에 대한 스코어로부터 차감될 수 있다. 전형적으로, 연장된 갭의 비용은 갭 오프닝에 대한 비용보다 적어도 약 2, 3, 4, 5, 6, 7, 8, 9 또는 10배 더 낮게 설정된다. 예상 역치는 특정 크기의 데이터베이스를 검색할 때 우연히 알게 되는 것으로 "예상할 수 있는" 히트의 수를 설명하는 변수이다.
조정: 알고리즘 및 변수의 서열 콘텍스트-기반 선택/조정
서열 콘텍스트, 예를 들어, 반복 서열(예를 들어, 종열(tandem) 반복, 산재성(interspersed) 반복)의 존재, 낮은 복잡도 영역, 삽입-결실, 위유전자 또는 파라로그는 정렬 특이성에 영향을 미칠 수 있다(예를 들어, 정렬불량을 야기한다). 본 명세서에서 사용된 바와 같은, 정렬불량은 게놈 내 부정확한 위치 상에서 짧은 리드으로부터 염기쌍의 배치를 지칭한다.
정렬 알고리즘, 예컨대 더 느리지만 더 정확한 정렬 알고리즘(예를 들어, 스미스-워터만(Smith-Waterman) 정렬 또는 다중-서열(리드) 정렬기 CLUSTALW)은 정렬 특이성을 증가시키도록 선택될 수 있다(예를 들어, 서열 콘텍스트, 예를 들어, 반복 서열의 존재에 의해 야기된 정렬불량의 가능성을 감소시킴).
정렬 변수, 예컨대 매치 보상, 미스매치 페널티, 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티), 예상 역치, 단어 크기, 필터 또는 마스크는 정렬 특이성을 증가시키도록(예를 들어, 서열 콘텍스트에 의해 야기되는 정렬불량의 가능성을 감소시키도록) 조절될 수 있다(예를 들어, 증가되거나 또는 감소된다).
조정: 종양 유형-기반 선택/알고리즘 및 변수의 조정
정렬 알고리즘이 선택되거나 또는 정렬 변수가 종양 유형, 예를 들어 특정 돌연변이 또는 돌연변이 유형을 가지는 경향이 있는 종양 유형에 기반하여 조절될 때, 정렬의 민감성이 증가될 수 있다
정렬 알고리즘은 핵산이 특정 종양 유형의 샘플로부터 단리될 때 정렬 민감성을 조절하기 위해(예를 들어, 증가시키도록) 선택될 수 있다.
정렬 변수, 예컨대 매치 보상, 미스매치 페널티, 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티), 예상 역치, 단어 크기, 필터 또는 마스크는, 핵산이 특정 종양 유형의 샘플로부터 단리될 때 정렬 민감성을 조절하기 위해(예를 들어, 증가시키도록) 조절될 수 있다(예를 들어, 증가되거나 또는 감소된다). 예를들어, C→T 치환은 흑색종에서 흔한 돌연변이 유형이다. 따라서, 정렬의 민감성은흑색종 샘플로부터 핵산 서열의 미스매치 페널티가 감소되거나 또는 증가될 때 조절될 수 있다(예를 들어, 증가될 수 있다).
조정: 유전자 유형-기반 선택/알고리즘 및 변수의 조정
정렬의 민감성은 정렬 알고리즘이 선택되거나 또는 정렬 변수가 특정 유전자 유형(예를 들어, 종양 유전자, 종양 억제자 유전자)을 기반으로 조절될 때 증가될 수 있다. 암-관련 유전자의 상이한 유형에서 돌연변이는 암 표현형에서 상이한 충격을 가질 수 있다. 예를 들어, 돌연변이체 종양유전자 대립유전자가 전형적으로 우세하다. 돌연변이체 종양 억제 유전자 대립유전자는 전형적으로 열성인데, 이는 대부분의 경우에 종양 억제자 유전자의 대립유전자 둘 다 효과가 명백하게 되기 전에 영향을 받아야한다는 것을 의미한다.
정렬 알고리즘은 유전자 유형(예를 들어, 종양 유전자, 종양 억제자 유전자)을 기반으로 정렬 민감성을 조절하기 위해(예를 들어, 증가시키도록) 선택될 수 있다.
정렬 변수, 예컨대 매치 보상, 미스매치 페널티, 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티), 예상 역치, 단어 크기, 필터 또는 마스크는 종양 유형(예를 들어, 종양 유전자, 종양 억제자 유전자)을 기반으로 정렬 민감성/특이성을 조절하기 위해(예를 들어, 증가시키도록) 조절될 수 있다(예를 들어, 증가되거나 또는 감소된다). 예를 들어, 프레임내 삽입-결실은 보통 종양 억제자와 관련된다. 따라서, 정렬의 민감성 및 특이성은 표준 갭 페널티 접근(예를 들어, 갭 오픈 + 갭 익스텐션)이 종양유전자에 대한 프레임내 삽입-결실 및 종양 억제 유전자에 대한 프레임-이동 삽입-결실에서 선호되도록 변형될 때 조절될 수 있다(예를 들어, 증가될 수 있다).
조정: 돌연변이 유형-기반 선택/알고리즘 및 변수의 조정
정렬의 민감성은 정렬 알고리즘이 선택되거나 또는 정렬 변수가 돌연변이 유형(예를 들어, 단일-뉴클레오타이드 다형성, 삽입-결실(삽입 또는 결실), 역위, 전위, 종열 반복체)을 기반으로 조절될 때, 조절될 수 있다(예를 들어, 증가될 수 있다).
BWA(속성 단일 짧은-리드), 스미스-워터만(Smith-Waterman)(더 짧고, 더 정확한 단일의 짧은-리드) 및 CLUSTALW(훨씬 더 짧지만, 다중 리드를 고려)와 같은 정렬 알고리즘은 돌연변이 유형(예를 들어, 단일-뉴클레오타이드 다형성, 삽입-결실(삽입 또는 결실), 역위, 전위, 종열 반복체)을 기반으로 정렬 민감성을 조절하기 위해(예를 들어, 증가시키도록) 선택될 수 있다.
정렬 변수, 예컨대 매치 보상, 미스매치 페널티, 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티), 예상 역치, 단어 크기, 필터 또는 마스크는 돌연변이 유형(예를 들어, 단일-뉴클레오타이드 다형성, 삽입-결실(삽입 또는 결실), 역위, 전위, 종열 반복체)을 기반으로 정렬 민감성/특이성을 조절하기 위해(예를 들어, 증가시키도록) 조절될 수 있다(예를 들어, 증가되거나 또는 감소된다). 예를 들어, 점 돌연변이는 보통 KRAS 유전자와 관련된다. 따라서, 정렬의 민감성은 해당 위치에 대한 미스매치 페널티가 감소될 때 증가될 수 있다. 유사하게, 결실은 보통 EGFR 유전자와 관련된다. 따라서, 정렬의 민감성은 해당 위치(들) 또는 유전자에 대한 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티)가 감소될 때, 증가될 수 있다. 부분적 서열(예를 들어, 리드의 제1 또는 제2의 절반)이 정렬을 위해 사용된다면, 정렬의 민감성은 또한 증가될 수 있다.
조정/돌연변이 부위-기반 선택/알고리즘 및 변수의 조정
알고리즘이 선택되거나 또는 정렬 변수가 돌연변이 부위(예를 들어, 핫스팟)를 기반으로 조절될 때, 정렬의 민감성은 조절될 수 있다(예를 들어, 증가될 수 있다). 돌연변이 핫스팟은 돌연변이가 정상 돌연변이율보다 더 빈번하게 100배까지 일어나는 경우의 게놈 내 부위를 지칭한다.
정렬 알고리즘은 돌연변이 부위(예를 들어, 돌연변이 핫스팟)를 기반으로 정렬 민감성을 조절하기 위해(예를 들어, 증가시키도록) 선택될 수 있다.
정렬 변수, 예컨대 매치 보상, 미스매치 페널티, 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티), 예상 역치, 단어 크기, 필터 또는 마스크는 돌연변이 부위(예를 들어, 돌연변이 핫스팟)를 기반으로 정렬 민감성을 조절하기 위해(예를 들어, 증가시키도록) 조절될 수 있다(예를 들어, 증가되거나 또는 감소된다). 예를 들어, 코돈 12에서 돌연변이는 보통 KRAS 유전자와 관련된다. 따라서, 정렬의 민감성은 부위에 대한 미스매치 페널티가 감소될 때 증가될 수 있다.
조정: 샘플 유형-기반 선택/알고리즘 및 변수의 조정
정렬 알고리즘이 선택되거나 또는 정렬 변수가 샘플 유형(예를 들어, FFPE 샘플)을 기반으로 조절될 때, 정렬의 민감성/특이성은 조절될 수 있다(예를 들어, 증가될 수 있다).
정렬 알고리즘은 샘플 유형(예를 들어, FFPE 샘플)을 기반으로 정렬 민감성/특이성을 조절하기 위해(예를 들어,증가시키도록) 선택될 수 있다.
정렬 변수, 예컨대 매치 보상, 미스매치 페널티, 갭 페널티(예를 들어, 갭 오프닝 페널티, 갭 익스텐션 페널티), 예상 역치, 단어 크기, 필터 또는 마스크는 샘플 유형(예를 들어, FFPE 샘플)을 기반으로 정렬 민감성/특이성을 조절하기 위해(예를 들어, 증가시키도록) 조절될 수 있다(예를 들어, 증가되거나 또는 감소된다). 예를 들어, DNA 손상에 기인하는 전이 돌연변이는 보통 FFPE 샘플과 관련된다. 따라서, 정렬의 민감성/특이성은 FFPE샘플로부터 얻은 서열에 대한 미스매치 페널티가 증가될 때, 감소될 수 있다.
e. 변이 호출(variant calling)
염기 호출은 시퀀싱 장치의 미가공(raw) 결과물을 지칭한다. 돌연변이 호출은 시퀀싱되는 뉴클레오타이드 위치에 대해 뉴클레오타이드 값, 예를 들어, A, G, T 또는 C를 선택하는 과정을 지칭한다. 전형적으로, 위치에 대한 시퀀싱 판독(또는 염기 호출)은 하나 이상의 값을 제공할 것이며, 예를 들어 일부 판독은 T를 제공할 것이고, 일부는 G를 제공할 것이다. 돌연변이 호출은 뉴클레오타이드 값, 예를 들어 서열에 대한 해당 값 중 하나를 부여하는 과정이다. "돌연변이" 호출로서 지칭되지만, 임의의 뉴클레오타이드 위치에, 예를 들어 돌연변이체 대립유전자, 야생형 대립유전자, 돌연변이체 또는 야생형 중 하나를 특징으로 하지 않은 대립유전자에 대응되는 위치에 또는 가변성을 특징으로 하지 않는 위치에 뉴클레오타이드 값을 부여하기 위해 적용될 수 있다. 돌연변이 호출을 위한 방법은 다음 중 하나 이상을 포함할 수 있다: 기준 서열의 각 위치에서 정보에 기반한 독립적 호출을 만드는 단계(예를 들어, 서열 판독을 시험하는 단계; 염기 호출 및 품질 스코어를 시험하는 단계; 관찰된 염기의 확률 및 잠재적 유전자형이 주어진 품질 스코어를 계산하는 단계; 및 유전자형을 부여하는 단계(예를 들어, 베이스(Bayes) 규칙을 사용)); 위양성을 제거하는 단계(예를 들어, 예상치보다 훨씬 더 낮거나 또는 훨씬 더 높은 판독에 의해 SNP를 기각시키는 심층의 역치; 작은 삽입-결실에 기인하여 위양성을 제거하는 국소 재정렬을 사용); 및 연관불균형(linkage disequilibrium: LD)/호출을 개선시키는 대치(imputation) 기반 분석을 수행하는 단계.
특이적 유전자형 및 위치와 관련된 유전자형 가능성을 계산하기 위한 식은, 예를 들어 문헌[Li H. and Durbin R. Bioinformatics, 2010; 26(5): 589-95]에 기재된다. 특정 암 유형에서 특정 돌연변이에 대한 사전 예상치는 해당 암 유형으로부터 샘플을 평가할 때 사용될 수 있다. 이러한 가능성은 암 돌연변이의 공공 데이터베이스, 예를 들어 암에서 체세포 돌연변이의 카탈로그(Catalogue of Somatic Mutation in Cancer: COSMIC), HGMD(인간 유전자 돌연변이 데이터베이스(Human Gene Mutation Database)), SNP 컨소시엄(The SNP Consortium), 유방암 돌연변이 데이터베이스(Breast Cancer Mutation Data Base: BIC) 및 유방암 유전자 데이터베이스(Breast Cancer Gene Database: BCGD)로부터 유래될 수 있다.
LD/대치 기반 분석의 예는, 예를 들어 문헌[Browning B.L. and Yu Z. Am. J. Hum. Genet. 2009, 85(6):847-61]에 기재된다. 낮은-덮임률 SNP 호출 방법의 예는, 예를 들어 문헌[Li Y. et al., Annu. Rev. Genomics Hum.Genet. 2009, 10:387-406]에 기재된다.
돌연변이 호출: 치환
정렬 후, 치환의 검출은 호출 방법, 예를 들어, 베이지안 돌연변이 호출 방법을 사용하여 수행될 수 있는데; 이는 대안의 대립유전자의 존재가 관찰되는 경우 서브게놈 간격, 예를 들어 평가되는 유전자의 엑손의 각각에서 각 염기에 적용된다. 이 방법은 돌연변이의 존재에서 판독 데이터를 관찰할 확률을 염기-호출 오류 단독의 존재에서 판독 데이터를 관찰할 확률과 비교할 것이다. 돌연변이는 이 비교가 돌연변이 존재를 충분히 강하게 지원하는 경우 호출될 수 있다.
방법은 암 DNA의 분석을 위해 50% 또는 100%의 빈도로부터 제한된 편차를 처리하기 위해 개발되었다. (예를 들어, SNVMix -Bioinformatics. 2010 March 15; 26(6): 730-736.) 그러나 본 명세서에 개시된 방법은 샘플 DNA의 1% 내지 100% 어디에서든지 및 특히 50% 미만의 수준에서 돌연변이체 대립유전자 존재의 가능성을 고려하게 한다. 이 접근은 천연(다중-클론) 종양 DNA의 저-순도 FFPE 샘플에서 돌연변이의 검출에 대해 특히 중요하다.
베이지안 돌연변이-검출 접근의 이점은 돌연변이 존재의 확률과 염기-호출 오류 단독의 확률의 비교가 부위에서 돌연변이 존재의 사전 예상치에 의해 가중치를 부여할 수 있다는 점이다. 대안의 대립유전자의 일부 판독이 주어진 암 유형에 대해 빈번하게 돌연변이된 부위에서 관찰된다면, 돌연변이의 존재는 돌연변이 증거의 양이 보통의 역치를 충족시키지 못한다 해도 자신있게 호출될 수 있다. 그 다음에 이 가요성은 훨씬 더 드문 돌연변이/더 낮은 순도의 샘플에 대해 검출 민감성을 증가시키거나 또는 판독 덮임률의 감소에 대해 시험을 더 탄탄하게 하기 위해 사용될 수 있다. 암에서 돌연변이된 게놈에서 무작위 염기쌍의 가능성은 ~1e-6이다. 전형적 돌연변이유발 암 게놈 패널의 다수 부위에서 특이적 돌연변이의 가능성은 10배 이상일 수 있다. 이들 가능성은 암 돌연변이(예를 들어, COSMIC)의 공공의 데이터베이스로부터 유래될 수 있다.
그 다음에 이러한 테이블이 만들어질 수 있으며, 공공의 데이터베이스에서 풍분한 정보가 이용가능한 경우 다유전자 시험에서 임의의 유전자에 대한 돌연변이 호출 알고리즘에서 사용될 수 있다.
돌연변이 호출: 삽입-결실
삽입-결실 호출은 전형적으로 관련된 신뢰도 스코어 또는 통계적 증거 측정 기준을 포함하는, 삽입 또는 결실에 의해 기준서열과 상이한 시퀀싱 데이터에서 염기를 발견하는 과정이다.
삽입-결실 호출 방법은 후보자 삽입-결실을 확인하는 단계, 국소 재정렬을 통해 유전자형 가능성을 계산하는 단계 및 LD-기반 유전자형 추론 및 호출을 수행하는 단계를 포함할 수 있다. 전형적으로, 베이지안 접근은 잠재적인 삽입-결실 후보자를 얻기 위해 사용된 다음, 이들 후보자는 베이지안 프레임워크에서 기준 서열과 함께 시험된다.
후보자 삽입-결실을 만들기 위한 알고리즘은, 예를 들어 문헌[McKenna A. et al., Genome Res. 2010; 20(9):1297-303; Ye K. et al., Bioinformatics, 2009; 25(21):2865-71; Lunter G. and Goodson M. Genome Res. 2010, epub ahead of print; Li H. et al., Bioinformatics 2009, Bioinformatics 25(16):2078-9]에 기재된다.
삽입-결실 호출 및 개개-수준 유전자형 가능성을 만들기 위한 방법은, 예를 들어 딘델(Dindel) 알고리즘(Albers C.A. et al., Genome Res. 2010 Oct 27. [Epub ahead of print]). 예를 들어, 베이지안 EM 알고리즘은 리드를 분석하기 위해 사용될 수 있고, 초기 삽입-결실 호출을 만들고, 각 후보자 삽입-결실에 대해 유전자형 가능성을 만든 다음, 예를 들어, QCALL을 사용하여 유전자형을 대치를 만들 수 있다(Le S.Q. and Durbin R. Genome Res. 2010 Oct 27. [Epub ahead of print]). 삽입-결실을 관찰하는 것의 사전 예상치와 같은 변수는 삽입-결실의 크기 또는 위치를 기반으로 조절될 수 있다(예를 들어, 증가되거나 또는 감소될 수 있다).
복제물 판독
시퀀싱 과정 동안, 오류는, 예를 들어 시퀀싱 화학에 의해 또는 이미지 분석 소프트웨어에 의해 상이한 과정의 전략에서 판독에 도입될 수 있다. 복제물 리드는 전형적으로 별개의 판독으로서 시퀀싱된다. 돌연변이 호출 알고리즘은 시퀀싱 오류와 실제 서열 변형 사이를 구별하여 후자를 정확하게 호출할 필요가 있다. 본 명세서에 기재된 방법은 시퀀싱 오류를 감소시키기 위해 복제된 판독을 분석할 수 있으며, 이에 의해 돌연변이 호출 알고리즘의 민감성을 개선시킬 수 있다.
이는 동일 게놈 위치를 덮는 독립된 판독을 비교하는 것에 의해 전형적으로 행해진다. 실제 복제물은 다양한 라이브러리 제조 단계 동안(예를 들어, PCR 증폭) 만들어지며, 별개의 판독으로서 시퀀싱된다. 이들은 독립된 판독이 아니기 때문에(즉, 그것들은 동일한 본래의 DNA 분자로부터 유래됨), 임의의 수의 복제물 중 하나만이 돌연변이 검출 과정에 전형적으로 사용되는 한편, 나머지는 폐기된다.
복제물의 사용은 시퀀싱 오류를 감소시키도록 판독되며, 이에 의해 본 명세서에 기재된 돌연변이 호출 알고리즘의 민감성을 개선시킨다. 복제물 판독은 동일한 시작 및 말단 위치의 소유에 의해 확인될 수 있다. 복제물 판독이 동일한 본래의 DNA 분자의 판독을 본질적으로 복제하기 때문에, 복제물 사이의 임의의 차이는 시퀀싱 오류이어야 하고, 따라서 무시될 수 있다. 예를 들어, 고도의 복제물 데이터가 이용가능하다면, 공통된 3 이상의 복제물이 사용될 수 있다. 대안적으로, 염기의 품질 스코어는 판독의 2 이상의 복제물 사이의 동의를 반영하기 위해 재정립될 수 있으며, 임의의 하위 과정에 의해 이용될 수 있다. 예를 들어, 돌연변이 호출 알고리즘은 모든 복제물에 의해 지지되지 않은 서열 차이에 더 적은 가중치를 둘 수 있다.
제시된 방법은 복제물에 대한 공통 서열을 만드는 것에 의해 일부 시퀀싱 데이터 상에서 시험되었다. 공통 판독서열의 오류율은 본래의 판독보다 상당히 더 낮게 되는 것으로 나타났다.
이 방법은, 예를 들어 1) 시퀀서의 일부 실패 방식이, 이 데이터에서 돌연변이를 호출하는 능력에 부정적으로 영향을 미치는, 더 높은 오류율을 지니는 사용할 수 있는 서열 데이터를 초래할 때 사용될 수 있다. 복제물을 사용함으로써 오류를 감소시키는 것은 시나리오에서 특히 효과적이어야 하며, 기계 고장에 대해 돌연변이 호출경로를 더 강하게 만들고, 2) 샘플에서 특히 드문(예를 들어, 혈중 종양 세포는 샘플 내 세포의 <1% 일 수 있음) 암 세포로부터의 DNA 시퀀싱할 때, 염기 오류율의 어떤 개선은 이들 종양 세포에서 돌연변이를 정확하게 확인하는 능력을 상당히 증가시킬 수 있다.
하나의 대표적인 실시형태에서, 높은 복제율(69%)을 갖는 데이터세트는 복제물에 대해 스캐닝되었다. 복제물 중 하나의 판독을 임의로 선택하는 보통-사용되는 소프트웨어 제거 툴(피카드 마크듀플리케이트(Picard MarkDuplicates))에 의해 복제물이 제거될 때, 얻어진 오류율은 0.40%였다. 비슷하게, 적어도 3개의 복제물을 갖는 모든 판독은 개별적으로 처리되었고, 각 복제물 세트에 대한 공통 서열은 가장 흔한 복제물 서열을 선택하 는 것에 의해 유래된다. 공통 서열의 오류율은 0.20%였는데, 이는 그것의 서열을 비교함으로써 복제물 판독에 대해 더 낮은 오류율이 달성될 수 있다는 것을 증명한다.
다른 실시형태에서, 복제물 판독은 확인되지 않거나 또는 제거되지 않는다. 복제물 판독을 제거하지 않는 것은, 복제물 판독의 분획이 대조군과 실험군 샘플 간에 상당히 상이할 때 종양 DNA에서 복제수를 확인하는 것과 대립 유전자-균형의 평가에서 특히 유용할 수 있다. 예를 들어, 고-복제율을 갖는 샘플에서 높은 덮임률 심도를 갖는 게놈 영역은 낮은 중복률을 갖는 샘플에서 유사한 심도를 갖는 동일 영역보다 더 많은 판독을 상실할 수 있는
반면, 낮은-덮임률 영역은 이 효과에 대한 경향이 더 적을 가능성이 있다. 따라서, 복제물 판독의 분획이 대조군과 실험군 샘플 간에 상당히 상이할 때, 둘 사이의 비교는 더 소란스럽게 될 수 있으며, 따라서 복제수 변경 호출의 민감성 및/또는 특이성을 낮출 수 있다.
DNA 시험 샘플, 예를 들어 종양으로부터 추출된 DNA 샘플의 서열 분석은 대조군 샘플, 예를 들어 비-암성 조직으로부터의 DNA 샘플과 시험군 샘플의 비교를 필요로 한다.
게놈 DNA 샘플의 시퀀싱에서, 복제물 판독이 만들어질 것이다. 판독 복제물은 라이브러리 제조의 다양한 단계(예를 들어, PCR 증폭)동안 만들어지며, 별개의 판독으로서 시퀀싱된다. 이들이 독립된 판독이 아니기 때문에 (즉, 그것들은 동일한 본래의 DNA 분자로부터 유래됨), 임의의 수의 복제물 중 하나만이 돌연변이 검출 과정에 전형적으로 사용되는 한편, 나머지는 폐기된다. 전형적으로, 대조군과 시험 샘플 둘 다로부터 복제물 판독은 시험군과 대조군 DNA 서열 사이의 유사한 분석을 수행하기 전에 제거된다.
일 실시형태에서, 복제물 판독의 분획이 시험군과 대조군 샘플 사이에 상당히 상이한 경우의 상황에서(예를 들어, 20%, 30%, 40%, 50%, 60% 이상 만큼 상이함), 복제물 판독은 시험 샘플 내 돌연변이를 정확하게 확인하는 능력을 최대화하기 위해 유사한 분석 전에 제거되지 않는 것이 바람직하다. 예를 들어, 대조군 샘플과 시험 샘플에서 복제물 판독의 수가 각각 20% 및 80%(또는 70% 또는 60% 또는 50%)인 경우의 상황이라면, 복제물 판독은 바람직하게는 유사한 분석 전에 제거되지 않는다.
기타
맵핑; 돌연변이 호출 방법의 선택; 돌연변이 호출 또는 돌연변이 주석.
실시형태에서, 단리된 종양 또는 대조군, 핵산의 특징은 하기 중 하나 이상 또는 모두에서 하위 단계 또는 변수를 변화시키기 위해 사용된다: 상기 샘플로부터 핵산의 단리; 라이브러리 구성; 베이트 설계 또는 선택; 혼성화 조건; 시퀀싱; 판독 맵핑; 돌연변이 호출 방법의 선택; 돌연변이 호출 또는 돌연변이 주석.
일 실시형태에서, 라이브러리의 특징은 하기 중 하나 이상 또는 모두에서 하위 단계 또는 변수를 변화시키기 위해 사용된다: 상기 샘플로부터 핵산의 재단리; 후속적 라이브러리 구성; 베이트 설계 또는 선택; 혼성화 조건; 시퀀싱; 판독 맵핑; 돌연변이 호출 방법의 선택; 돌연변이 호출 또는 돌연변이 주석.
일 실시형태에서, 라이브러리-캐치의 특징은 하기 중 하나 이상 또는 모두에서 하위 단계 또는 변수를 변화시키기 위해 사용된다: 상기 샘플로부터 핵산의 재단리; 후속적 라이브러리 구성; 베이트 설계 또는 선택; 혼성화 조건; 시퀀싱; 판독 맵핑; 돌연변이 호출 방법의 선택; 돌연변이 호출 또는 돌연변이 주석.
일 실시형태에서, 시퀀싱 방법의 특징은 하기 중 하나 이상 또는 모두에서 하위 단계 또는 변수를 변화시키기 위해 사용된다: 상기 샘플로부터 핵산의 재단리; 후속적 라이브러리 구성; 베이트 설계 또는 선택; 혼성화 조건; 시퀀싱; 판독 맵핑; 돌연변이 호출 방법의 선택; 돌연변이 호출 또는 돌연변이 주석.
일 실시형태에서, 맵핑된 판독의 수집물의 특징은 하기 중 하나 이상 또는 모두에서 하위 단계 또는 변수를 변화시키기 위해 사용된다: 상기 샘플로부터 핵산의 재단리; 후속적 라이브러리 구성; 베이트 설계 또는 선택; 후속 시퀀싱의 혼성화 조건의 후속 결정; 후속 판독 맵핑; 돌연변이 호출 방법의 선택; 돌연변이 호출 또는 돌연변이 주석.
일 실시형태에서, 해당 방법은 종양 샘플 특징에 대해 값을 획득하는 단계, 예를 들어 상기 샘플에서 종양 세포의 비율에 대해, 상기 종양 샘플의 세포질에 대해; 또는 종양 샘플의 이미지로부터 값을 획득하는 단계를 포함한다.
일 실시형태에서, 해당 방법은 종양 샘플 특징에 대해 상기 획득한 값에 반응하여, 종양 샘플로부터 핵산의 단리, 라이브러리 구성; 베이트 설계 또는 선택; 베이트/라이브러리 구성원 혼성화; 시퀀싱; 또는 돌연변이 호출에 대한 변수를 선택하는 단계를 포함한다.
일 실시형태에서, 방법은 상기 종양 샘플에 존재하는 종양 조직의 양에 대한 값을 획득하는 단계, 상기 획득한 값을 참조 기준과 비교하는 단계 및 상기 참조 기준이 충족된다면, 상기 종양 샘플을 받아들이는 단계, 예를 들어 상기 종양 샘플이 30, 40 또는 50% 초과의 종양 세포를 함유한다면, 상기 종양 샘플을 받아들이는 단계를 추가로 포함한다.
일 실시형태에서, 방법은 종양 세포에 대해 상기 종양 샘플로부터의 종양 조직을 참조 기준을 충족시키지 못하는 종양 샘플로부터 마크로해부(macrodissecting)함으로써 풍부화된 하위-샘플을 획득하는 단계를 추가로 포함한다.
일 실시형태에서, 방법은 주요 대조군, 예를 들어 혈액 샘플이 이용가능한지 여부, 따라서 상기 주요 대조군으로부터 대조군 핵산(예를 들어, DNA)을 분리시키는지 여부를 결정하는 단계를 추가로 포함한다.
일 실시형태에서, 방법은 분리된 종양 핵산 샘플을 제공하기 위해 상기 종양 샘플로부터 핵산을 분리시키는 단계를 추가로 포함한다.
일 실시형태에서, 방법은 분리된 대조군 핵산 샘플을 제공하기 위해 대조군으로부터 핵산을 분리시키는 단계를 추가로 포함한다.
일 실시형태에서, 방법은 검출가능한 핵산이 없는 샘플을 기각시키는 단계를 추가로 포함한다.
본 발명에 있어서, 상기 (a) 단계는 (a-i) 채취된 시료에서 염석 방법(salting-out method), 컬럼크로마토그래피 방법(column chromatography method), 또는 비드 방법(beads method)을 사용하여 단백질, 지방, 및 기타 잔여물을 제거하고 정제된 핵산을 수득하는 단계;
(a-ii) 분리된 핵산을, 효소적 절단, 분쇄 또는 하이드로쉐어방법(hydroshear method)으로 무작위 단편화(random fragmentation)하여 싱글-엔드 시퀀싱 또는 페어-엔드 시퀀싱 라이브러리를 제작하는 단계;
(a-iii) 상기 제작된 라이브러리를 복수의 베이트 세트(bait set)와 접촉시켜, PARP 저해제 저항성 유전자 그룹 및 PARP 저해제 민감성 유전자 그룹의 핵산을 포획하는 단계;
(a-iv) 포획된 핵산을 차세대 유전자서열검사기(next-generation sequencer)에 반응시키는 단계;
(a-v) 상기 차세대 유전자서열검사기에서 핵산의 서열정보(판독, 리드, reads)를 획득하는 단계.
(a-vi) 상기 서열정보(reads)를 참조집단의 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
(a-vii) 상기 정렬된 서열정보(reads)에 대하여 퀄리티를 확인하여, 기준값(cut-off value) 이상인 서열정보만 선별하는 단계; 및
(a-viii) 선별된 서열정보에서 돌연변이 정보를 도출하는 단계를 포함하는 방법으로 수행되는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 a-vi) 단계는 (i) 각 정렬된 핵산서열의 영역을 특정하는 단계; 및
(ii) 상기 영역 내에서 정렬 일치도 점수(mapping quality score)와 GC 비율의 기준값을 만족하는 서열을 선별하는 단계를 포함하는 방법으로 수행되는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 기준값은, 상기 정렬 일치도 점수(mapping quality score)가 15 내지 70이고, GC 비율은 30 내지 60%인 것을 특징으로 할 수 있다.
본 발명은 다른 관점에서, (a) MAD2L2, TP53BP1, XRCC5, XRCC6 및 SFLN11로 구성된 군에서 선택되는 하나 이상의 유전자에 상보적인 서열을 함유하는 폴리뉴클레오타이드; 및 (b) BRCA1, BRCA2, BARD1, PALB2, RAD51, ATM, ATR, RAD51C, RAD51B, NBN, FANCA, FANCD2, FANCM, FANCI, STK11, MRE11A, RAD50, RAD51D, CHEK2, CDH1, RBBP8, BRIP1, PTEN, BLM, TP53, CDK12, EMSY, FANCF, ERCC1 및 XRCC1로 구성된 군에서 선택되는 하나 이상의 유전자에 상보적인 서열을 함유하는 폴리뉴클레오타이드; 를 포함하는 PARP 저해제에 대한 감수성 예측용 조성물에 관한 것이다.
본 발명은 또 다른 관점에서, (a) MAD2L2, TP53BP1, XRCC5, XRCC6 및 SFLN11로 구성된 군에서 선택되는 하나 이상의 유전자에 상보적인 서열을 함유하는 폴리뉴클레오타이드; 및 (b) BRCA1, BRCA2, BARD1, PALB2, RAD51, ATM, ATR, RAD51C, RAD51B, NBN, FANCA, FANCD2, FANCM, FANCI, STK11, MRE11A, RAD50, RAD51D, CHEK2, CDH1, RBBP8, BRIP1, PTEN, BLM, TP53, CDK12, EMSY, FANCF, ERCC1 및 XRCC1로 구성된 군에서 선택되는 하나 이상의 유전자에 상보적인 서열을 함유하는 폴리뉴클레오타이드; 를 포함하는 PARP 저해제에 대한 감수성 예측용 조성물을 포함하는 PARP 저해제에 대한 감수성 예측용 키트에 관한 것이다.
본 발명에 있어서, 상기 폴리뉴클레오타이드는 프로브 또는 프라이머인 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 키트는 필요에 따라 다양한 완충액, 세척액 및 표지물질을 포함하는 것을 특징으로 할 수 있다.
F. 실시예
이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 예시하기 위한 것으로서, 본 발명의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지 않는 것은 당업계에서 통상의 지식을 가진 자에 있어서 자명할 것이다.
실시예 1. TCGA 기반 마커 조합 도출
The Cancer Genome Atlas (TCGA, https://portal.gdc.cancer.gov/)에서 BRCA으로 분류된 1,098 명의 유방암 환자들의 돌연변이(mutation) 정보와 복제수 변이(CNA) 정보를 다운받아 변이 정보(Genomic Alterations, GA)를 분석하였다. 먼저 변이 중 ‘유해한 변이’는 다음과 같이 선정하였다:
i. 변이의 유형이 ‘nonsense’, ‘frame shift’, ‘splice site variant (2~5bp)’, ‘inframe deletion’ 으로 구성된 변이;
ii. coverage depth 가 2 이상 (Pred score ≥ 25)인 변이; 및
iii. varaint allele frequency (VAF) 값이 30% 이상인 경우를 모두 만족하는 변이를 ‘유해한 변이’로 선정하였다.
변이 중 복제수 변이(copy number alteration, CNA)는 TCGA에 의해 계산된 값들에 대하여 다음과 같이 점수를 매겼다:
i. 0 : 정상,
ii. -1 : heterozygous copy number deletion,
iii. -2 : homozygous copy number deletion,
iv. 1 : heterozygous copy number amplification,
v. 2 : homozygous copy number amplification
그 다음, 상기 점수에 근거하여 변이(GA)를 다음과 같이 정의하여 분석을 진행하였다:
한 환자 내의 동일한 유전자에서
i. ‘유해한 변이’와 heterozygous copy number deletion (copy number variant, CNV = -1)이 동시에 일어나거나 혹은
ii. ‘유해한 변이’는 없으나 homozygous copy number deletion (CNV ≤ -2)이 일어난 경우를 변이(GA)가 있는 것으로 결정하고, 상기 변이가 있는 환자는 PARP 저해제에 대하여 감수성이 있는 것으로 판단하였다.
특히, Oncogene인 EMSY 유전자(민감성)의 경우에는
i. ‘유해한 변이’만을 가진 경우,
ii. ‘유해한 변이’와 gain (heterozygous copy number amplification, CNV = 1)을 동시에 가진 경우, 그리고
iii. copy number amplification (homozygous copy number amplification, CNV = 2)인 경우를 변이가 있는 것으로 결정하였다.
그 결과, 총 1098명의 유방암 환자 중 510명에서 GA를 확인할 수 있었다(도 1).
이는 단순히 BRCA1/2의 변이정보만 확인할 경우 PARP 저해제에 대하여 감수성이 있는 것으로 결정되는 환자가 동일한 모집단에서 42명밖에 되지 않는 것에 비하여 10배 이상 향상된 효과를 나타낸 것이다.
실시예 2. TCGA 기반 마커 빈도수 확인
The Cancer Genome Atlas (TCGA, https://portal.gdc.cancer.gov/)에서 BRCA으로 분류된 유방암 환자들 중 ER+/HER2- 인 환자들(n=437)과 Triple negative breast cancer (TNBC, n=116) 환자들에 대하여 특정 유전자의 빈도수를 분석하였다.
먼저 특정 유전자는 PARP 저해제인 루카파립 (rucaparib)에 대하여 sensitive 한 것으로 알려진 다음의 18개 유전자를 선정하였다:
BRCA1, BRCA2, BARD1, PALB2, RAD51, ATM, ATR, RAD51C, RAD51B, NBN, FANCA, FANCD2, FANCM, FANCI, MRE11, RAD50, RAD51D, EMSY
그 외에 탐색적 연구로써 7개의 유전자도 함께 분석하였으며, 유전자는 다음과 같다:
STK11, CHEK2, BRIP1, CDK12, FANCF, ERCC1, XRCC1
ER+/HER2- 인 유방암 환자군에서 루카파립 (rucaparib)에 대하여 sensitive 한 18개 유전자의 GA 빈도수를 확인한 결과, 437명 중 65명(14.9%)에게서 18개의 유전자에서 GA가 존재하는 것으로 확인되었다. TNBC 인 유방암 환자군에서 18개 유전자의 GA 빈도수는 116명 중 26명(22.4%)에서 GA가 존재하는 것으로 확인되었다. 하지만 두 그룹 모두에서 BRCA1과 BRCA2 유전자에서 GA의 빈도는 높지 않았으며, EMSY 유전자의 GA가 ER+/HER2- 그룹(6.4%)에서 TNBC 그룹(2.6%)보다 많이 나타났다(도 2). 탐색적 연구를 위한 7개의 유전자에서는 두 그룹 모두 큰 차이를 보이지 않는 것을 확인하였다.
ER+/HER2- 인 유방암 환자군에서 40세 전후로 GA 분포에 차이가 있는지 확인해본 결과, BRCA2 유전자에서 40세보다 나이가 많은 환자들에게 많이 나타나는 경향을 보였으며, FANCA와 EMSY 유전자에서 40세보다 나이가 많은 환자들에게서 GA가 많이 나타나는 것으로 확인되었다(도 3). 이는 50세를 기준으로 했을 때에도 비슷한 결과를 확인 할 수 있었다. 탐색적 연구를 위한 7개의 유전자에서는 나이에 따른 차이를 보이지 않는 것을 확인하였다.
따라서, 유방암 환자에서 BRCA1/2 유전자뿐만 아니라 18개 유전자 내에서 유방암과의 연관성이 있는 유전자들을 함께 분석할 경우, PARP 저해제의 처방 대상자가 증가하는 것을 확인하였다.
실시예 3. Biallelic Genetic Impairment(BGI)의 판독
3-1. 변이정보 획득
BGI 를 평가하기 위해서는 분석에 사용된 종양 조직의 종양 분율 정보 및 PARP 저해제 민감성 유전자들의 Adjusted Allele Frequency (Adj. AF, ) 가 필요하다. 이를 검증하기 위하여, PARP 저해제 저항성 유전자 그룹의 모든 유전자(MAD2L2, TP53BP1, XRCC5, XRCC6 및 SFLN11)에 변이가 없는 고형암 환자 56명의 돌연변이 정보 및 종양분율 정보를 이용하여 BGI를 분석하였다.
먼저, 돌연변이 정보를 획득하기 위하여, 종양분율 정보를 보유하고 있는 고형암 환자 56명의 FFPE 샘플에서 GeneRead DNA FFPE Kit (Qiagene) 를 이용하여 DNA 을 추출하였다. 구체적으로는 Deparaffinization solution 을 사용하여 56°C 에서 FFPE 샘플을 녹인 후 하단의 투명층을 분리하였다. 분리된 용액은 원심분리를 이용한 정제 과정을 거쳐 핵산을 추출하였다.
추출한 핵산은 총량이 400 ng 이상을 만족하는 검체들을 대상으로 SOLIDaccuTest Library DNA Prep Kit (NGeneBio) 를 사용해 Library preparation 을 수행하여, MiSeq-Dx 장비(Illumina)를 이용하여 sequencing 을 진행하였다. 그 결과, 샘플당 200Mb 이상의 데이터가 생산되는 것을 확인하였다.
차세대염기서열분석기(NGS) 장비에서 생성된 fastq 파일은 참조 염색체 Hg19 서열을 기준으로 염기서열이 다른 부위를 BWA 으로 제거하였고, GATK 알고리즘으로 변이 정보를 수득하였다. 수득한 돌연변이 중 PARP 저해제 저항성 유전자 그룹(MAD2L2, TP53BP1, XRCC5, XRCC6 및 SFLN11)에 대해서는 아무런 돌연변이가 없는 것을 확인하였다.
3-2. BGI 판독
3-1에서 수득한 돌연변이 정보 및 종양분율 정보를 이용해 수식 2를 이용하여 Standard Tumor Fraction 을 계산한다.
이와 같이 계산된 Standard Tumor Fraction 은 평가 대상자들의 PARP 저해제 민감성 유전자들의 Adj. AF 과 비교하여 BGI 를 판단한다. 대상자의 Adj. AF 이 Standard Tumor Fraction 보다 높을 경우, 양쪽 대립유전자에 결함이 있는 것으로 판단하며, 그렇지 않을 경우에는 one allele impairment 또는 WT 으로 판단하였다.
예를 들어, Tumor % 가 80%인 검체에서 Standard Tumor Fraction 은 67% 로 산출이 되는데, 이 때의 대상자의 Adj. AF 가 73% 일 경우, Adj. AF 값이 Standard tumor fraction 보다 큰 값이기 때문에 BGI 양성으로 판단하였다.
Standard Tumor Fraction 은 아래의 표 5를 참고하였다.
상기 분석법으로 BGI 를 분석한 결과, 표 6에 기재된 바와 같이 전체 56명 중 19명(33.9%)에게서 BGI 를 확인할 수 있었다.
이는 PARP 저해제 민감성 유전자에 일반적인 돌연변이가 있을 경우(n=33, 58.9%)로 판정할 경우에는 위양성의 가능성이 있다는 것을 확인하였다.
이상으로 본 발명 내용의 특정한 부분을 상세히 기술하였는바, 당업계의 통상의 지식을 가진 자에게 있어서, 이러한 구체적 기술은 단지 구체적인 실시양태일 뿐이며, 이에 의해 본 발명의 범위가 제한되는 것이 아닌 점은 명백할 것이다. 따라서 본 발명의 실질적인 범위는 첨부된 청구항들과 그것들의 등가물에 의하여 정의된다고 할 것이다.
본 발명에 따른 방법은 PARP 저해제 감수성을 결정하는 바이오마커의 대립 유전자 양쪽(both allele)의 변이를 검출하여 높은 민감도와 정확도로 PARP 저해제가 작동하는 시료를 선별할 수 있을 뿐만 아니라, 기존의 BRCA1/2 유전자의 변이만 검출하는 방법에 비하여 상동재조합결핍 관련 유전자를 추가로 분석하므로 더 넓은 범위에 시료에 대하여 PARP 저해제 감수성을 결정할 수 있어 유용하다.
Claims (21)
- 다음의 단계를 포함하는 PARP(Poly ADP Ribose Polymerase) 저해제에 대한 감수성(susceptibility) 결정 방법:(a) 환자 유래 핵산 분자를 분석하여 PARP 저해제 저항성 유전자 그룹 및 PARP 저해제 민감성 유전자 그룹의 유전자형(genotype)을 확인하는 단계; 및(b) PARP 저해제 저항성 유전자 그룹의 모든 유전자에 변이가 없고, PARP 저해제 민감성 유전자 그룹 중 하나 이상의 유전자의 대립 유전자 양쪽(both alleles)에서 모두 변이를 나타낼 경우, PARP 저해제에 대한 감수성이 있는 것으로 결정하는 단계.
- 제1항에 있어서,(i) 상기 PARP 저해제 저항성 유전자 그룹 중 하나 이상의 유전자에 변이가 나타나거나,(ii) 상기 PARP 저해제 저항성 유전자 그룹의 모든 유전자에 변이가 없고, PARP 저해제 민감성 유전자 그룹 중 하나 이상의 유전자의 both allele에서 모두 변이가 없거나,(iii) 상기 PARP 저해제 저항성 유전자 그룹의 모든 유전자에 변이가 없고, PARP 저해제 민감성 유전자 그룹 중 하나 이상의 유전자의 single allele에서 변이가 나타날 경우, PARP 저해제에 대한 감수성이 없는 것으로 결정하는 단계;를 추가로 포함하는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
- 제1항에 있어서, 상기 PARP 저해제 저항성 유전자 그룹은 MAD2L2, TP53BP1, XRCC5, XRCC6 및 SFLN11으로 구성된 군인 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
- 제1항에 있어서, 상기 PARP 저해제 민감성 유전자 그룹은 BRCA1, BRCA2, BARD1, PALB2, RAD51, ATM, ATR, RAD51C, RAD51B, NBN, FANCA, FANCD2, FANCM, FANCI, STK11, MRE11A, RAD50, RAD51D, CHEK2, CDH1, RBBP8, BRIP1, PTEN, BLM, TP53, CDK12, EMSY, FANCF, ERCC1 및 XRCC1로 구성된 군인 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
- 제1항에 있어서, 상기 변이는 유해한 변이(deleterious mutation) 및 복제수 변이(copy number alteration)를 포함하는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
- 제5항에 있어서, 상기 유해한 변이는 i) 코딩 영역 내에서 정상 위치보다 앞선 부위에 정지 코돈이 있는 단백절단변이(protein truncating alterations);ii) 인트론과 엑손 접합 부위에서 비-동의코돈(non-synonymous codon, 아미노산 서열이 변경됨)이 있는 접합부위변이; 및iii) 코딩 영역 내에서 염기서열 일부가 삽입 또는 삭제로 인해 코돈이 변경되는 프레임이동 변이(frameshift alterations)를 포함하는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
- 제5항에 있어서, 상기 복제수 변이는 1개 이상의 핵산 또는 코돈이 결실되는 복제수 결실 변이(copy number deletion) 및 1개 이상의 핵산 또는 코돈이 증폭되는 복제수 증폭 변이(copy number amplification)를 포함하는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
- 제5항에 있어서, 상기 유해한 변이는 염기서열의 치환(substitution), 삽입(insertion), 결실(deletion), 카피수 변경(copy number alteration), 재배열(rearrangement)로 구성된 군에서 선택되는 하나 이상의 방법으로 발생하는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
- 제1항에 있어서, 상기 (a) 단계는 다음의 단계를 포함하는 방법으로 수행되는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법:(a-i) 채취된 시료에서 염석 방법(salting-out method), 컬럼크로마토그래피 방법(column chromatography method), 또는 비드 방법(beads method)을 사용하여 단백질, 지방, 및 기타 잔여물을 제거하고 정제된 핵산을 수득하는 단계;(a-ii) 분리된 핵산을, 효소적 절단, 분쇄 또는 하이드로쉐어방법(hydroshear method)으로 무작위 단편화(random fragmentation)하여 싱글-엔드 시퀀싱 또는 페어-엔드 시퀀싱 라이브러리를 제작하는 단계;(a-iii) 상기 제작된 라이브러리를 복수의 베이트 세트(bait set)와 접촉시켜, PARP 저해제 저항성 유전자 그룹 및 PARP 저해제 민감성 유전자 그룹의 핵산을 포획하는 단계;(a-iv) 포획된 핵산을 차세대 유전자서열검사기(next-generation sequencer)에 반응시키는 단계;(a-v) 상기 차세대 유전자서열검사기에서 핵산의 서열정보(판독, 리드, reads)를 획득하는 단계.(a-vi) 상기 서열정보(reads)를 참조집단의 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;(a-vii) 상기 정렬된 서열정보(reads)에 대하여 퀄리티를 확인하여, 기준값(cut-off value) 이상인 서열정보만 선별하는 단계; 및(a-viii) 선별된 서열정보에서 돌연변이 정보를 도출하는 단계.
- 제1항에 있어서, 상기 (b) 단계의 유전자형을 확인하는 단계는 분리된 핵산을 1백만 내지 1억 리드 깊이로 유전체 시퀀싱을 통해 획득하는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
- 제9항에 있어서, 상기 a-vi) 단계는 다음의 단계를 포함하는 방법으로 수행되는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법:(i) 각 정렬된 핵산서열의 영역을 특정하는 단계; 및(ii) 상기 영역 내에서 정렬 일치도 점수(mapping quality score)와 GC 비율의 기준값을 만족하는 서열을 선별하는 단계.
- 제11항에 있어서, 상기 기준값은, 상기 정렬 일치도 점수(mapping quality score)가 15 내지 70이고, GC 비율은 30 내지 60%인 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
- 제1항에 있어서, 상기 (b) 단계에서 PARP 저해제 민감성 유전자의 대립 유전자 양쪽(both alleles)의 변이는 환자 유래 핵산 분자의 biallelic genetic impairment(BGI)를 계산하는 단계를 포함하는 방법으로 검출하는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
- 제13항에 있어서, 상기 BGI는 환자 유래 핵산 분자의 종양 분율(standard tumor fraction)과 PARP 저해제 민감성 유전자들의 보정된 대립유전자 빈도(adjusted allele frequency)를 이용하여 계산하는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
- 제13항에 있어서, 상기 BGI는 PARP 저해제 민감성 유전자들의 보정된 대립유전자 빈도(adjusted allele frequency)가 환자 유래 핵산 분자의 종양 분율(standard tumor fraction) 이상일 경우, 1로 계산하고, 미만인 경우 0으로 계산하는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
- 제13항에 있어서, 상기 (b) 단계에서 PARP 저해제 민감성 유전자의 대립 유전자 양쪽(both alleles)의 변이는 BGI 값이 1일 경우, 대립 유전자 양쪽에 변이가 있는 것으로 결정하고, 0일 경우, 대립 유전자 양쪽에 변이가 없거나, 어느 한쪽에만 변이가 있는 것으로 결정하는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
- 제1항에 있어서, 상기 PARP 저해제는 AZD2281(올라파립, Olaparib), ABT888(벨리파립, Veliparib), AG014699(루카파립, Rucaparib), MK-4827(니라파립, Niraparib), BMN-673(탈라조파립, Talazoparib), BSI201(이니파립, Iniparib), BGP15(O-(3-piperidino-2-hydroxy-1-propyl)nicotinicamidoxime),INO1001(3-Aminobenzamide), ONO2231, 니코틴아미드(nicotinamide), 3-아미노벤즈아미드(3-aminobenzamide), ,4-디히드로-5-[4-(1-피페리디닐)부톡시]-1(2H)-이소퀴놀론(3,4-dihydro-5-[4-(1-piperidinyl)butoxy]-1(2H)-isoquinolone), 벤즈아미드(benzamide), 퀴놀론(quinolone), 이소퀴놀론(isoquinolone), 벤조피론(benzopyrone), 사이클릭 벤즈아미드(cyclic benzamide), 벤즈이미다졸(benzimidazole), 인돌(indole) 및 펜안트리디논(phenanthridinone)으로 구성된 군에서 선택되는 것을 특징으로 하는 PARP 저해제에 대한 감수성 결정 방법.
- (a) MAD2L2, TP53BP1, XRCC5, XRCC6 및 SFLN11로 구성된 군에서 선택되는 하나 이상의 유전자에 상보적인 서열을 함유하는 폴리뉴클레오타이드; 및(b) BRCA1, BRCA2, BARD1, PALB2, RAD51, ATM, ATR, RAD51C, RAD51B, NBN, FANCA, FANCD2, FANCM, FANCI, STK11, MRE11A, RAD50, RAD51D, CHEK2, CDH1, RBBP8, BRIP1, PTEN, BLM, TP53, CDK12, EMSY, FANCF, ERCC1 및 XRCC1로 구성된 군에서 선택되는 하나 이상의 유전자에 상보적인 서열을 함유하는 폴리뉴클레오타이드; 를 포함하는 PARP 저해제에 대한 감수성 예측용 조성물.
- (a) MAD2L2, TP53BP1, XRCC5, XRCC6 및 SFLN11로 구성된 군에서 선택되는 하나 이상의 유전자에 상보적인 서열을 함유하는 폴리뉴클레오타이드; 및(b) BRCA1, BRCA2, BARD1, PALB2, RAD51, ATM, ATR, RAD51C, RAD51B, NBN, FANCA, FANCD2, FANCM, FANCI, STK11, MRE11A, RAD50, RAD51D, CHEK2, CDH1, RBBP8, BRIP1, PTEN, BLM, TP53, CDK12, EMSY, FANCF, ERCC1 및 XRCC1로 구성된 군에서 선택되는 하나 이상의 유전자에 상보적인 서열을 함유하는 폴리뉴클레오타이드; 를 포함하는 PARP 저해제에 대한 감수성 예측용 조성물을 포함하는 PARP 저해제에 대한 감수성 예측용 키트.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20190136108 | 2019-10-30 | ||
KR10-2019-0136108 | 2019-10-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021086107A1 true WO2021086107A1 (ko) | 2021-05-06 |
Family
ID=75716087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2020/015027 WO2021086107A1 (ko) | 2019-10-30 | 2020-10-30 | Parp 저해제에 대한 반응성 결정방법 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR102580824B1 (ko) |
WO (1) | WO2021086107A1 (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021177898A1 (en) * | 2020-03-03 | 2021-09-10 | National University Of Singapore | Method for determining the likelihood of resistance to therapy |
WO2023284736A1 (en) * | 2021-07-12 | 2023-01-19 | Edigene Therapeutics (Beijing) Inc. | Biomarkers for colorectal cancer treatment |
WO2023109875A1 (en) * | 2021-12-16 | 2023-06-22 | Edigene Therapeutics (Beijing) Inc. | Biomarkers for colorectal cancer treatment |
WO2024015973A1 (en) * | 2022-07-15 | 2024-01-18 | Foundation Medicine, Inc. | Methods and systems for determining circulating tumor dna fraction in a patient sample |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114672562A (zh) * | 2022-03-01 | 2022-06-28 | 武汉凯德维斯医学检验实验室有限公司 | 一种针对parp抑制剂耐药性监测的方法、装置、设备及介质 |
KR102518091B1 (ko) * | 2022-07-12 | 2023-04-06 | 주식회사 아이엠비디엑스 | 상동 재조합 결핍 정보를 제공하는 방법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140364434A1 (en) * | 2011-12-07 | 2014-12-11 | The Regents Of The University Of California | Biomarkers for Prediction of Response to PARP Inhibition in Breast Cancer |
KR20160014565A (ko) * | 2014-07-29 | 2016-02-11 | 재단법인 아산사회복지재단 | Parp 저해제에 대한 감수성 예측용 신규한 바이오 마커 및 이의 용도 |
WO2019020652A1 (en) * | 2017-07-25 | 2019-01-31 | Sophia Genetics Sa | METHODS FOR DETECTION OF BIELELIC LOSS OF A FUNCTION IN GENOMIC GENERATION NEGATIVE GENERATION DATA |
WO2019133697A1 (en) * | 2017-12-27 | 2019-07-04 | Tesaro, Inc. | Methods of treating cancer |
-
2020
- 2020-10-30 WO PCT/KR2020/015027 patent/WO2021086107A1/ko active Application Filing
- 2020-10-30 KR KR1020200143259A patent/KR102580824B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140364434A1 (en) * | 2011-12-07 | 2014-12-11 | The Regents Of The University Of California | Biomarkers for Prediction of Response to PARP Inhibition in Breast Cancer |
KR20160014565A (ko) * | 2014-07-29 | 2016-02-11 | 재단법인 아산사회복지재단 | Parp 저해제에 대한 감수성 예측용 신규한 바이오 마커 및 이의 용도 |
WO2019020652A1 (en) * | 2017-07-25 | 2019-01-31 | Sophia Genetics Sa | METHODS FOR DETECTION OF BIELELIC LOSS OF A FUNCTION IN GENOMIC GENERATION NEGATIVE GENERATION DATA |
WO2019133697A1 (en) * | 2017-12-27 | 2019-07-04 | Tesaro, Inc. | Methods of treating cancer |
Non-Patent Citations (1)
Title |
---|
FARAONI ISABELLA , GRAZIANI GRAZIA: "Role of BRCA Mutations in Cancer Treatment with Poly(ADP-ribose) Polymerase (PARP) Inhibitors", CANCERS, vol. 10, no. 12, 487, 4 December 2018 (2018-12-04), pages 1 - 20, XP055808178, ISSN: 2072-6694, DOI: 10.3390/cancers10120487 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021177898A1 (en) * | 2020-03-03 | 2021-09-10 | National University Of Singapore | Method for determining the likelihood of resistance to therapy |
WO2023284736A1 (en) * | 2021-07-12 | 2023-01-19 | Edigene Therapeutics (Beijing) Inc. | Biomarkers for colorectal cancer treatment |
WO2023109875A1 (en) * | 2021-12-16 | 2023-06-22 | Edigene Therapeutics (Beijing) Inc. | Biomarkers for colorectal cancer treatment |
WO2024015973A1 (en) * | 2022-07-15 | 2024-01-18 | Foundation Medicine, Inc. | Methods and systems for determining circulating tumor dna fraction in a patient sample |
Also Published As
Publication number | Publication date |
---|---|
KR20210052356A (ko) | 2021-05-10 |
KR102580824B1 (ko) | 2023-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021086107A1 (ko) | Parp 저해제에 대한 반응성 결정방법 | |
Ammerpohl et al. | Distinct DNA methylation patterns in cirrhotic liver and hepatocellular carcinoma | |
WO2016167408A1 (ko) | 차세대 염기서열 분석기법을 이용한 장기 이식 거부 반응 예측 방법 | |
JP2021509587A (ja) | シトシン修飾の、亜硫酸水素塩非含有、塩基分解能特定 | |
WO2016036172A1 (ko) | 단백질 키나제 억제제에 대한 감수성 예측용 바이오 마커 및 이의 용도 | |
US9738922B2 (en) | Universal methylation profiling methods | |
WO2016195382A1 (ko) | 바코드 서열을 포함하는 어댑터를 이용한 차세대 염기서열 분석 방법 | |
Ren et al. | Disruption of ATRX-RNA interactions uncovers roles in ATRX localization and PRC2 function | |
WO2020096248A1 (ko) | 폐암 조직 내 세포 유래 돌연변이를 검출하기 위한 프로브 제조 및 검출 방법 | |
WO2019031866A1 (ko) | 차세대 염기서열 분석기법을 이용한 유전자 재배열 검출 방법 | |
KR20230057395A (ko) | 이중 가닥 파손의 단리 방법 | |
Pfeifer et al. | Methods and applications of genome-wide profiling of DNA damage and rare mutations | |
IE911957A1 (en) | Method for the Quantitative Determination of DNA Sequences | |
WO2015108328A1 (ko) | 대장암 마커로서의 신규 ntrk1 융합유전자 및 이의 용도 | |
WO2014038890A1 (ko) | Axl을 포함하는 융합 단백질 및 이를 포함하는 암 진단용 조성물 | |
WO2016080750A1 (ko) | 암 유전체 돌연변이 검출용 유전자 패널 | |
Ricevuto et al. | Molecular diagnosis of p53 mutations in gastric carcinoma by touch preparation. | |
WO2021034034A1 (ko) | 핵산 단편간 거리 정보를 이용한 염색체 이상 검출 방법 | |
WO2020096247A1 (ko) | 유방암 조직 내 세포 유래 돌연변이를 검출하기 위한 프로브 제조 및 검출 방법 | |
JP2006504426A (ja) | Rnaスプライス部位の検出のための定性的差異スクリーニング | |
WO2019194640A1 (ko) | 분자 인덱스된 바이설파이트 시퀀싱 | |
WO2020145734A1 (ko) | Braf 돌연변이 검출을 위한 dna 중합효소 및 이를 포함하는 키트 | |
KR101064603B1 (ko) | 리포터 시스템을 이용한 메틸트렌스퍼레이즈 저해 물질 스크리닝 방법 | |
WO2023219214A1 (en) | Snps panel for kinship identification in korean and use thereof | |
WO2015182804A1 (ko) | 유전자 표적부위 염기서열분석방법 및 그 분석용 조성물 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20881020 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20881020 Country of ref document: EP Kind code of ref document: A1 |