WO2020204297A1 - 개인의 전이효소-접근가능한 염색질 시퀀싱 정보를 이용한 암 진단 마커 및 이의 용도 - Google Patents

개인의 전이효소-접근가능한 염색질 시퀀싱 정보를 이용한 암 진단 마커 및 이의 용도 Download PDF

Info

Publication number
WO2020204297A1
WO2020204297A1 PCT/KR2019/015856 KR2019015856W WO2020204297A1 WO 2020204297 A1 WO2020204297 A1 WO 2020204297A1 KR 2019015856 W KR2019015856 W KR 2019015856W WO 2020204297 A1 WO2020204297 A1 WO 2020204297A1
Authority
WO
WIPO (PCT)
Prior art keywords
primer pair
seq
nucleic acid
nos
present
Prior art date
Application number
PCT/KR2019/015856
Other languages
English (en)
French (fr)
Inventor
이대엽
김태묵
한성욱
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020190147570A external-priority patent/KR102192455B1/ko
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to US17/601,332 priority Critical patent/US20220170110A1/en
Publication of WO2020204297A1 publication Critical patent/WO2020204297A1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/16Primer sets for multiplex assays

Definitions

  • the present invention relates to a cancer diagnostic marker selected using transferase-accessible chromatin using sequencing (ATAC sequencing) and uses thereof, and more particularly, to a biological sample after treatment with a transfer enzyme,
  • the present invention relates to an open chromatin structure mutation marker obtained by extracting DNA to obtain sequence information, dividing a chromosome region into a predetermined section, and comparing the distribution of the number of reads by section with a reference group, and a cancer diagnosis method using the same.
  • NGS Next-generation nucleotide sequencing
  • SNP single nucleotide polymorphism
  • INDEL indels
  • an epigenome research technique was applied to analyze the function of the genetic factor in the non-death area.
  • the histone modification study using ChIP-Seq (Chromatin ImmunoPrecipitation Sequencing), one of the representative epigenetic analysis techniques, indicates the activity of the non-transcribed region of chromatin, so the epigenetic genome map in cancer-related cell lines or tissues It is used as a method to investigate the molecular mechanism of cancer-causing genetic mutations through writing (Nevedomskaya et al., Genomics data vol. 2 195-8. 8 Jul. 2014).
  • Hi-C is a representative technology that studies the structure of chromatin at high resolution based on 3C (Chromosome Conformation Capture), and is a technology that captures the physical binding of chromatin on the genome (Belton et al., Methods (San Diego, Calif). .) vol. 58,3 (2012)).
  • ATAC-Seq is a technique that detects open areas of chromatin using Transposon. It can be fully tested with a small amount, and has the advantage of being able to use it for rare cell lines or patients. It is cost-effective compared to -C (Buenrostro et al., Nature methods vol. 10,12, 2013).
  • the present inventors made diligent efforts to develop an ATAC-Seq-based open chromatin structure mutation marker, and then, using the ATAC-Seq result, dividing by section with high enrichment and comparing the number of reads with a reference group to select a marker candidate group. , By setting a statistically significant marker compared to the reference group, and confirming the structure of the chromatin in the marker, it was confirmed that cancer can be diagnosed with high accuracy, and the present invention was completed.
  • An object of the present invention is to provide a composition for diagnosing breast cancer capable of detecting a chromatin structural variation marker.
  • Another object of the present invention is to provide a method for diagnosing breast cancer using the composition for diagnosing breast cancer.
  • the present invention is a transfer enzyme (transposase); And it provides a composition for diagnosing breast cancer comprising a primer pair specific to any one nucleic acid selected from the group consisting of SEQ ID NO: 1 to 100.
  • the present invention also includes the steps of obtaining a nucleic acid fragment by treating a nucleic acid isolated from a biological sample with a transposase; And amplifying the processed nucleic acid fragment using a primer pair specific to any one or more nucleic acids selected from the group consisting of SEQ ID NOs: 1 to 100, and detecting the chromatin structure of the nucleic acid. do.
  • 1 is an overall flow chart of a method for screening an open chromatin structure variant marker of the present invention.
  • FIG. 2 is a graph showing the distribution of chromatin structure mutation candidate markers for normal and triple negative breast cancer detected according to an embodiment of the present invention.
  • FIG 3 is a graph showing a flow chart for detecting a region having a large structural difference between normal and triple negative breast cancer among the triple negative breast cancer-specific gene structure mutation markers detected according to an embodiment of the present invention.
  • FIG. 4 is a graph showing differences in structural mutation markers between normal and triple-negative breast cancer using a heatmap according to an embodiment of the present invention.
  • FIG. 5 is a graph showing a genome-wide example of a triple negative breast cancer-specific gene structure mutation marker detected according to an embodiment of the present invention.
  • the chromatin structure mutation marker opened with ATAC-seq is selected by comparing it with a normal reference group, and the possibility of cancer occurrence in the sample is detected using the marker, cancer is detected using the open chromatin structure mutation marker with high accuracy. It was confirmed that it can be diagnosed.
  • DNA is extracted from cells treated with a transposase to perform NGS, and then aligned based on the reference chromosome Hg19 sequence, to confirm the quality, and read the chromosome with high enrichment.
  • a chromatin structural variation marker that opens a different section by dividing it into a certain section (bin), selecting the section that is above the reference value by graphing the matching lead amount for each section, and then comparing the lead peak value of the selected section with the reference group was selected as.
  • the selected marker was treated with a transfer enzyme to another sample, the result of detection by real-time PCR using a primer capable of amplifying the marker showed that cancer diagnosis can be performed based on a three-dimensional chromatin structure with high accuracy. It was confirmed (Fig. 1, Fig. 3).
  • composition for diagnosis of breast cancer comprising a primer pair specific to any one nucleic acid selected from the group consisting of SEQ ID NOs: 1 to 100.
  • the primer pair may be characterized in that it includes a primer pair specific to each of the nucleic acids represented by the sequence of SEQ ID NOs: 21 to 40.
  • the primer pair may be characterized in that it includes a primer pair specific to each of the nucleic acids represented by the sequence of SEQ ID NOs: 41 to 60.
  • the primer pair may be characterized in that it includes a primer pair specific to each nucleic acid represented by the sequence of SEQ ID NOs: 61 to 80.
  • the primer pair may be characterized in that it includes a primer pair specific to each nucleic acid represented by the sequence of SEQ ID NOs: 81 to 100.
  • breast cancer refers to cancer in the breast, and may also be referred to interchangeably as "mammary cancer".
  • the breast cancer may include mammary gland breast cancer, lobule breast cancer, or a combination thereof. Depending on the site of occurrence, breast cancer can be largely divided into two types: cancer that occurs in the epithelium of the ducts and leaves, and cancer that occurs in the matrix.
  • the breast cancer may include a complex carcinoma (CC) or a type of tubular carcinoma (DC).
  • Coronary carcinoma is a type of breast cancer that exists primarily in the duct of an individual.
  • diagnosis refers to determining the name of the disease, and may include the name of the breast cancer, the state of the disease, the stage, the etiology, the presence or absence of complications, prognosis, and recurrence.
  • transposase refers to binding to the end of a transposon and moving to another part of the genome by cut and paste, or replicative transposition. It refers to an enzyme that catalyzes.
  • the transfer enzyme may be an enzyme classified under the EC number EC 2.7.
  • the transferase may be a Tn5 transferase.
  • Tn5 transferase is one of the RNase superfamily that contains retroviral integrase.
  • Tn5 transferase can be translocated by cleavage and insertion.
  • Tn5 transferase can be used in a genome sequencing method using fragmentation of DNA, a so-called ATAC-seq technique.
  • amplification refers to a reaction to amplify a nucleic acid molecule.
  • Various amplification reactions have been reported in the art, which are polymerase chain reaction (hereinafter referred to as PCR) (U.S. Patent Nos. 4,683,195, 4,683,202, and 4,800,159), reverse transcription-polymerase chain reaction (hereinafter referred to as RT-PCR).
  • PCR polymerase chain reaction
  • RT-PCR reverse transcription-polymerase chain reaction
  • NASBA nucleic acid sequence based amplification
  • LAMP strand displacement amplification
  • LAMP loop-mediated thermostatic amplification isothermal amplification
  • PCR is the most well-known nucleic acid amplification method, and its many modifications and applications have been developed. For example, touchdown PCR, hot start PCR, nested PCR and booster PCR have been developed by modifying traditional PCR procedures to enhance the specificity or sensitivity of PCR.
  • real-time PCR differential display PCR (D-PCR), rapid amplification of cDNA ends (RACE), DL-PCR (PC), inverse polymerase chain reaction (inverse polymerase chain reaction: IPCR), vectorette PCR, and thermal asymmetric interlaced PCR (TAIL-PCR) have been developed for specific applications.
  • D-PCR differential display PCR
  • RACE rapid amplification of cDNA ends
  • PC DL-PCR
  • IPCR inverse polymerase chain reaction
  • vectorette PCR vectorette PCR
  • thermal asymmetric interlaced PCR TAIL-PCR
  • the multiplex amplification is a multiplex PCR (Polymerase Chain Reaction) amplification.
  • the multiplex PCR amplification has an annealing temperature condition of 57-61°C, and according to another embodiment of the present invention, the multiplex PCR amplification is an annealing of 58-60°C. It has a temperature condition, and according to a specific embodiment of the present invention, the multiplex PCR amplification has an annealing temperature condition of 58.5-59.5°C.
  • the multiplex PCR amplification requires an appropriate number of cycles to perform PCR. According to an embodiment of the present invention, the multiplex PCR amplification is performed in 27-30 cycles. When the multiplex PCR amplification of the present invention was performed in 26 cycles or less, peaks of 500 RFU or less were formed, and peaks of 2,000 RFU or more were formed in 31 cycles, but noise increased and incomplete A insertion occurred, which is not suitable.
  • the composition may include one or more adapters (adaptor).
  • the adapter refers to a short and synthesized oligonucleotide used in genetic engineering.
  • the transferase may be a transferase complex to which one or two adapters are conjugated.
  • the adapter may be inserted into either or both ends of the nucleic acid fragment by cleavage and insertion of a transfer enzyme.
  • the adapter may include a sequence identical to or complementary to a primer for amplifying a nucleic acid.
  • the nucleic acid includes genomic DNA, chromatin, and fragments thereof.
  • the nucleic acid may comprise an open reading frame (ORF) and a regulatory region.
  • the regulatory region may include a promoter, an enhancer, a silencer, and an untranslated region (UTR).
  • the term'primer' refers to a single template that can serve as an initiation point for template-directed DNA synthesis under suitable conditions (i.e., 4 different nucleoside triphosphates and polymerases) in a suitable buffer at a suitable temperature. It refers to the oligonucleotide of the strand.
  • suitable length of a primer varies depending on various factors, eg temperature and application of the primer, but is typically 15 to 30 nucleotides Short primers form a sufficiently stable hybridization complex with the template. It may generally require a lower temperature to form.
  • forward primer and “reverse primer” refer to the 3'end of a certain site of the template that is amplified by polymerase chain reaction and It means a primer that binds to each of the 5'ends.
  • the sequence of the primer does not have to have a sequence that is completely complementary to some of the sequences of the template, and it is hybridized with the template to have sufficient complementarity within the range that can perform the unique function of the primer. Therefore, the primer set according to one embodiment does not need to have a sequence that is completely complementary to the nucleotide sequence as a template, and it is sufficient if it has sufficient complementarity within the range capable of hybridizing to this sequence to function as a primer.
  • a primer design program eg, PRIMER 3, VectorNTI program. You can use it.
  • the primer pair can be used without limitation as long as it is a primer pair capable of amplifying any one of SEQ ID NOs: 1 to 100, but preferably any one selected from the group consisting of SEQ ID NOs: 101 to 300 It may be characterized as being a primer pair.
  • the forward primer for amplifying the BC3M_102 marker sequence represented by SEQ ID NO: 1 of the present invention is represented by SEQ ID NO: 101
  • the reverse primer is represented by SEQ ID NO: 102
  • the forward primer for amplifying the BC3M_11 marker sequence represented by SEQ ID NO: 2 of the present invention may be represented by SEQ ID NO: 103
  • the reverse primer may be represented by SEQ ID NO: 104.
  • the primer pair is in the primer pair represented by SEQ ID NOs: 101 to 300, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15 , 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40 , 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65 , 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90 , 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108,
  • the primer pair may be characterized in that the primer pair represented by SEQ ID NOs: 141 to 180.
  • the primer pair may be characterized in that the primer pair represented by SEQ ID NOs: 181 to 220.
  • the primer pair may be characterized in that the primer pair represented by SEQ ID NOs: 221 to 260.
  • the primer pair may be characterized in that the primer pair represented by SEQ ID NOs: 261 to 300.
  • the marker sequence may be characterized by screening by the following method:
  • sequence information refers to one nucleic acid fragment obtained by analyzing sequence information using various methods known in the art. Therefore, in the present specification, the terms “sequence information” and “lead” have the same meaning in that they are a result of obtaining sequence information through a sequencing process.
  • the term “bin” is used with the same meaning as a certain section or section, and means a part of the entire chromosome sequence.
  • the term "reference group” is a reference group that can be compared like a standard sequence database, and refers to a group of people who do not currently have a specific disease or condition.
  • the standard nucleotide sequence in the standard chromosome sequence database of the reference group may be a reference chromosome generated using the normal tissue of a breast cancer patient provided by Seoul National University Hospital.
  • RPKM reads per kilobase of transcript per million mapped reads, and means a normalized peak value.
  • the chromatin includes euchromatin and heterochromatin.
  • the chromatin may include nucleosomes in which DNA is wound about two turns around eight histone protein cores.
  • the DNA region between nucleosomes may have a “open chromatin” structure. Transcription factors, polymerases, etc. may be attached to open chromatin to initiate transcription.
  • the DNA region wrapped around the histone protein core may have a "closed chromatin" structure. In closed chromatin, DNA and histone proteins are bound, so transcription factors and polymerases cannot attach.
  • the structure of the chromatin may be changed according to intracellular signal transmission or the like.
  • step (a) the step (a)
  • (a-vi) It may be characterized in that it is carried out by a method comprising the step of obtaining sequence information (reads) of the nucleic acid in the next generation gene sequence tester.
  • the nucleic acid purified in the (a-ii) step is randomized by enzymatic cleavage, pulverization or a hydroshear method. It may be characterized in that it is performed by a method further including the step of producing a single-end sequencing or pair-end sequencing library by random fragmentation.
  • the next-generation sequencer is not limited thereto, but the Illumina Company's Hiseq system, the Illumina Company's Miseq system, and the Illumina Company's genome An analyzer (GA) system, a Roche Company's 454 FLX, an Applied Biosystems Company's SOLiD system, and a Life Technology Company's Ion Torrent system, but are not limited thereto.
  • the alignment step is not limited thereto, but may be performed using the BWA algorithm and the Hg19 sequence.
  • the BWA algorithm may include BWA-mem, BWA-ALN, BWA-SW or Bowtie2, but is not limited thereto.
  • selecting sequence information in the step (c) refers to whether to perform additional analysis based on the data or to terminate the analysis by checking whether a quality score, for example, a sequencing quality score satisfies a certain requirement. Means the procedure to determine.
  • step (c) the step (c)
  • step (c) may be characterized in that it additionally includes selecting a sequence that satisfies a reference value of a mapping quality score in the selected region.
  • the region of the nucleic acid sequence in step (c-i) is not limited thereto, but may be 1 kb to 1 MB.
  • the sequencing quality score within the region may vary according to a desired criterion, but specifically, the region where the sequencing quality score is 30 or higher is the entire nucleic acid sequence Among the areas of the, the area exceeding 70%, more specifically exceeding 75%, and most specifically exceeding 80% is selected.
  • the reference value may vary according to a desired criterion for the mapping quality score, but specifically 15 to 70, more specifically 30 to 65, Most specifically, it may be 60.
  • a predetermined interval (bin) in which the read enrichment in step (d) is high may be 15 kb to 50 kb. That is, in the present invention, the predetermined period (bin) is not limited thereto, but may be 1 kb to 1 MB, specifically 1 kb to 500 kb, more specifically 15 kb to 100 kb, more specifically 15 kb to 50 kb, and most specifically 15 kb. .
  • the statistically significant difference in step (e) may be characterized in that the p-value calculated by Equation 2 below is less than 0.05, and the fold change calculated by Equation 3 is 1.5 times or more:
  • X1 and X2 are the average values of RPKM for each group (1: control group, 2: control group), and n1 and n2 refer to the number of samples corresponding to each group.
  • X1 is the average value of 10 normal samples
  • X2 is the average value of 10 cancer samples.
  • control means a control group
  • treatment means a control group
  • control group may preferably be a normal cell group or a cell group having a disease other than the target disease, and the control group may be a target disease cell group, preferably a specific cancer cell group.
  • step (f) is
  • standard chromosome of the present invention is a combination of genetic information from multiple donors that are genetically determined to be normal, and may be, for example, GRCh37 (Hg19) data provided by NCBI.
  • the present invention from another point of view,
  • It relates to a method for diagnosing breast cancer comprising the step of amplifying the processed nucleic acid fragment using a primer pair specific to any one or more nucleic acids selected from the group consisting of SEQ ID NOs: 1 to 100, and detecting the chromatin structure of the nucleic acid. .
  • the primer pair is in the primer pair represented by SEQ ID NOs: 101 to 300, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15 , 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40 , 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65 , 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90 , 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108,
  • the primer pair may be characterized in that it further comprises a primer pair represented by SEQ ID NOs: 141 to 180.
  • the primer pair may be characterized in that it further comprises a primer pair represented by SEQ ID NOs: 181 to 220.
  • the primer pair may be characterized in that it further comprises a primer pair represented by SEQ ID NOs: 221 to 260.
  • the primer pair may be characterized in that it further comprises a primer pair represented by SEQ ID NOs: 261 to 300.
  • the biological sample may be blood, bone marrow fluid, lymph fluid, saliva, tear fluid, mucous membrane fluid, amniotic fluid, or cells isolated therefrom.
  • the biological sample may be cells isolated from blood.
  • the cells are peripheral blood mononuclear cells (PBMCs).
  • a method of obtaining a nucleus of a cell from the biological sample may be performed using a method commonly used in the art.
  • a cell membrane digestion solution can be used to separate the nuclei.
  • the method includes the step of generating a nucleic acid fragment by adding a transfer enzyme to the nucleus of the obtained cell.
  • the transferase can bind to open chromatin.
  • the transferase may non-specifically bind to open chromatin, thereby cleaving open chromatin between nucleosomes in the nucleus of the cell.
  • the method includes amplifying the nucleic acid fragment in the presence of a primer specific for any one nucleic acid selected from the group consisting of SEQ ID NOs: 1 to 100, and detecting the chromatin structure of the nucleic acid.
  • a transfer enzyme may bind to chromatin to generate a fragment of the nucleic acid.
  • an amplification product may be generated from the nucleic acid.
  • a transferase cannot bind to the nucleic acid and a fragment of the nucleic acid cannot be generated.
  • a reaction product is specifically amplified on any one nucleic acid selected from the group consisting of SEQ ID NOs: 1 to 100, there is no fragment of the nucleic acid, so that the amplification product may not be produced or less.
  • the amplification amount of any one nucleic acid selected from the group consisting of SEQ ID NOs: 1 to 100 is statistically significant compared to the reference group, it means that the object in which the biological sample is detected has a high probability of developing breast cancer.
  • Example 1 Preparation and Sequencing of ATAC Library for each carcinoma.
  • mapping Mapping, Alignment
  • the open area of chromatin was detected using Genrich tool. More accurate information for each region was described through annotation of the open regions of the chromatin extracted in this way.
  • peaks present in the intergenic region were extracted, and among them, objects that were 2 kb or more and 50 kb or less from the TSS (transscription start site) were used.
  • this was classified using Homer (MergePeak).
  • the peak that does not exceed the threshold value is removed, and then statistically significant difference between the two groups (p-value ⁇ 0.05 Equation 2). , Fold change 1.5 times or more, Equation 3) was reclassified.
  • X1 and X2 are the average RPKM values for each group (1: control group, 2: comparison group), and n1 and n2 indicate the number of samples corresponding to each group.
  • control means a control group
  • treatment means a control group
  • nucleic acid fragment obtained by the method described in Example 1 was amplified using the primers shown in Table 3 below.
  • the open chromatin structural variation marker according to the present invention is useful as a cancer diagnostic marker because it can confirm the structural variation of chromatin with high accuracy, and when detecting chromatin structural variation using a composition for detecting the marker, a new cancer diagnostic marker It can be used as

Landscapes

  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Public Health (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Urology & Nephrology (AREA)
  • Databases & Information Systems (AREA)
  • Hematology (AREA)
  • Evolutionary Biology (AREA)
  • Epidemiology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Food Science & Technology (AREA)
  • Cell Biology (AREA)
  • General Physics & Mathematics (AREA)

Abstract

본 발명은 전이효소-접근가능한 염색질 이용 시퀀싱(transposase-accessible chromatin using sequencing, ATAC sequencing)을 이용한 암 진단 마커 및 이의 용도에 관한 것으로, 본 발명에 따른 열린 염색질 구조변이 마커는 염색질의 구조상 변이를 높은 정확도로 확인할 수 있어 암 진단 마커로서 유용하며, 상기 마커를 검출하기 위한 조성물을 이용하여 염색질 구조변이를 검출할 경우, 새로운 암 진단 마커로서 활용이 가능하다.

Description

개인의 전이효소-접근가능한 염색질 시퀀싱 정보를 이용한 암 진단 마커 및 이의 용도
본 발명은 전이효소-접근가능한 염색질 이용 시퀀싱(transposase-accessible chromatin using sequencing, ATAC sequencing)을 이용하여 선정한 암 진단 마커 및 이의 용도에 관한 것으로, 더욱 상세하게는 생체 시료에 전이효소를 처리한 다음, DNA를 추출하여 서열정보를 획득하고, 염색체 영역을 일정구간으로 구분하여 구간별 리드 수의 분포를 참조 집단과 비교하여 수득한 열린 염색질 구조변이 마커 및 이를 이용한 암 진단 방법에 관한 것이다.
암으로 인해 우리나라뿐만 아니라 전 세계적으로 사망자가 증가하고 있으며, 우리나라에서는 위암, 유방암, 갑상선암, 폐암, 대장암등 다양한 암 유병자가 있다. 암의 발생 원인으로는 선천적, 유전적 돌연변이, 후천적 원인으로 나뉘며, 특정 유전자 일부의 변이에 의해 발생하기보다 다양한 원인이 종합적으로 작용하여 발생하게 된다. 암을 치료하는 방법으로는 수술을 통한 이식 및 제거방법과 화학 및 방사선요법이 이용되고 있다. 최근 이러한 방법을 통해 암의 재발률이 점차 감소가 되고 있지만, 근본적인 원인을 찾고 이를 사전에 예후예측을 할 수 있는 연구는 꾸준히 진행 중이다.
차세대염기서열분석법(NGS)은 염색체를 작은 조각으로 나누고 각 조각의 유전정보를 병렬적으로 분석하는 염기서열분석법이다. NGS는 유전자분석 기술이 발전하면서 상대적으로 검사의 소요시간과 비용이 적고 단일염기 다형성(SNP), 삽입-결실(INDELs)까지 검출 가능한 높은 해상도 때문에 유전자 변이 검출 용도로 활용되고 있다. 그러나 염색체를 작게 나누어 분석하는 NGS의 원리적 특성상 큰 규모의 염색체의 구조적 변이나 CNVs을 검출하는데 기술적 한계가 있다(Yohe S, Thyagarajan B. 2017, Arch Pathol Lab Med. Vol. 141(11), pp. 1544-1557).
현재까지 각종 암과 관련된 특정 유전자에 관한 연구를 위하여 유전체(Genome) 분석 및 특정 위험 인자와 관련한 전장 유전체(Whole-Genome) 분석이 수행되었다. 각종 암과 관련하여 특정 유전자에 대한 유전적인 위험 인자들이 존재하지만, 대부분은 전사지역(Coding region)이 아닌 비전사지역(Non-coding region)에 존재하며, 이를 분석하기 위한 시간이 많이 소요되고 있어서 새로운 접근법이 필요하였다.
이 문제를 해결하기 위하여 비전사 지역에 대한 유전인자의 기능을 해석하기 위한 후성 유전체(Epigenome) 연구기법을 적용되었다. 대표적인 후성 유전체 분석 기법 중 하나인 ChIP-Seq (Chromatin ImmunoPrecipitation Sequencing)을 이용한 히스톤 변형(Histone modification) 연구는 염색질(Chromatin)의 비 전사지역의 활성도를 표시하기에 암 관련 세포주나 조직에서의 후성 유전체 지도 작성을 통해 암 유발 유전적 변이의 분자 기전을 규명하는 방법으로 사용되고 있다(Nevedomskaya et al., Genomics data vol. 2 195-8. 8 Jul. 2014).
하지만 이 방법은 특정 단백질을 침강시키기 위하여 사용되는 항체(Antibody)에 너무 의존적이며, 후성 유전체 연구에 사용되는 마커의 수가 약 150여가지로 좀 더 정밀한 예측을 하는데 문제점을 가지고 있다. 또한 비 전사지역에 유전자 조절 인자들은 종종 가까운 유전자보다 멀리 떨어져 있는 다른 유전자를 조절한다는 연구가 보고 있으며, 이는 염색질의 3차 구조로 인해 DNA 상으로 멀리 떨어져 있어도 DNA 접힘(Folding)을 통해 공간상에서는 유전자 조절 인자와 원거리 유전자가 가까워 질 수 있기 때문에 후성 유전체 지도 작성만으로는 암의 근본적인 원인과 예후예측을 위한 위험 인자들의 역할을 명확하게 규명하기가 어렵다(Mishra et al., Genome medicine vol. 9,1 87. 30 Sep. 2017).
따라서 이 문제를 해결하기 위해서는 암 특이적 유전자 조절 기전 이해에 있어 염색질의 3차 구조기반의 연구가 필요하며, 이를 위한 새로운 연구 기법이 필요한 실정이다.
염색질의 구조를 연구하는 기법으로는 NGS를 이용한 ATAC-Seq(Assay for Transposase-Accessible Chromatin using sequencing)과 Hi-C이 있다. Hi-C는 3C (Chromosome Conformation Capture) 기반을 기반으로 고해상도로 염색질의 구조를 연구하는 대표적인 기술로써, 유전체 상에서 염색질의 물리적인 결합을 캡처하는 기술이다(Belton et al., Methods (San Diego, Calif.) vol. 58,3 (2012)). ATAC-Seq은 트렌스포존(Transposon)을 이용하여 염색질의 개방된 지역을 검출하는 기법으로 적은 양으로도 충분히 실험이 가능하며, 희귀한 세포주나 환자들을 대상으로 사용을 할 수 있는 장점이 있으며, Hi-C와 비교하여 비용적으로 효율적이다(Buenrostro et al., Nature methods vol. 10,12, 2013).
이에, 본 발명자들은 ATAC-Seq 기반의 열린 염색질 구조변이 마커를 개발하기 위하여 예의 노력한 결과, ATAC-Seq 결과를 이용하여 enrichment가 높은 구간별로 나누어 리드 수를 참조집단과 비교하여 마커 후보군을 선별한 다음, 참조 집단과 비교하여 통계적으로 유의미한 마커를 설정하여, 상기 마커에서 염색질의 구조를 확인할 경우, 높은 정확도로 암을 진단할 수 있다는 것을 확인하고, 본 발명을 완성하게 되었다.
본 배경기술 부분에 기재된 상기 정보는 오직 본 발명의 배경에 대한 이해를 향상시키기 위한 것이며, 이에 본 발명이 속하는 기술분야에서 통상의 지식을 가지는 자에게 있어 이미 알려진 선행기술을 형성하는 정보를 포함하지 않을 수 있다.
발명의 요약
본 발명의 목적은 염색질 구조변이 마커를 검출할 수 있는 유방암 진단용 조성물을 제공하는데 있다.
본 발명의 다른 목적은 상기 유방암 진단용 조성물을 이용하여 유방암을 진단하는 방법을 제공하는데 있다.
상기 목적을 달성하기 위하여, 본 발명은 전이효소(transposase); 및 서열번호 1 내지 100으로 구성된 군에서 선택되는 어느 하나의 핵산에 특이적인 프라이머 쌍을 포함하는 유방암 진단용 조성물을 제공한다.
본 발명은 또한, 생체시료에서 분리된 핵산을 전이효소(transposase)로 처리하여 핵산 단편을 수득하는 단계; 및 서열번호 1 내지 100으로 구성된 군에서 선택되는 어느 하나 이상의 핵산에 특이적인 프라이머 쌍을 이용하여 상기 처리된 핵산 단편을 증폭하여, 상기 핵산의 염색질 구조를 검출하는 단계를 포함하는 유방암 진단방법을 제공한다.
도 1은 본 발명의 열린 염색질 구조변이 마커의 스크리닝 방법의 전체 흐름도이다.
도 2는 본 발명의 일 실시예에 따라 검출한 정상과 삼중음성유방암에 대한 염색질 구조 변이 후보 마커의 분포도를 나타낸 그래프이다.
도 3은 본 발명의 일 실시예에 따라 검출한 삼중음성유방암 특이적 유전자 구조 변이 마커 중 정상과 삼중음성유방암 사이에서의 구조적 차이가 큰 지역을 검출하는 흐름도를 나타낸 그래프이다.
도 4는 본 발명의 일 실시예에 따라 정상과 삼중음성유방암 사이에서의 구조 변이 마커를 히트맵(heatmap)을 이용하여 차이가 남을 나타낸 그래프이다.
도 5는 본 발명의 일 실시예에 따라 검출한 삼중음성유방암 특이적 유전자 구조 변이 마커의 예시를 Genome-wide하게 나타낸 그래프이다.
발명의 상세한 설명 및 바람직한 구현예
다른 식으로 정의되지 않는 한, 본 명세서에서 사용된 모든 기술적 및 과학적 용어들은 본 발명이 속하는 기술분야에서 숙련된 전문가에 의해서 통상적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 본 명세서에서 사용된 명명법은 본 기술분야에서 잘 알려져 있고 통상적으로 사용되는 것이다.
본 발명에서는 ATAC-seq을 이용하여 스크리닝한 열린 염색질 구조변이 마커로 암 진단을 할 수 있는지 확인하고자 하였다.
본 발명에서는 ATAC-seq으로 열린 염색질 구조 변이 마커를 정상인 참조집단과 비교하여 선별하고, 상기 마커를 이용하여 샘플의 암 발생 가능성을 검출할 경우, 높은 정확도의 열린 염색질 구조변이 마커를 이용하여 암을 진단 할 수 있다는 것을 확인하였다.
즉, 본 발명의 일 실시예에서는 전이효소(transposase)를 처리한 세포에서 DNA를 추출하여 NGS를 수행한 다음, 참조염색체 Hg19서열을 기준으로 정렬하여, 퀄리티를 확인하고, 염색체를 리드 enrichment가 높은 일정 구간(bin)으로 구분하여 각 구간별 매칭되는 리드 양을 그래프화하여 기준값 이상이 되는 구간을 선별한 다음, 선별된 구간의 리드 피크 값이 참조 집단과 비교하여 상이한 구간을 열린 염색질 구조변이 마커로 선별하였다. 선별한 마커를 다른 샘플에 전이효소를 처리한 다음, 상기 마커를 증폭할 수 있는 프라이머를 이용하여 실시간 PCR로 검출한 결과, 높은 정확도로 3차원 염색질 구조에 기반하여 암 진단을 수행할 수 있다는 것을 확인하였다(도 1, 도 3).
따라서, 본 발명은 일 관점에서,
전이효소(transposase); 및
서열번호 1 내지 100으로 구성된 군에서 선택되는 어느 하나의 핵산에 특이적인 프라이머 쌍을 포함하는 유방암 진단용 조성물에 관한 것이다.
본 발명에 있어서, 상기 핵산 각각에 특이적으로 결합하는 프라이머 쌍은 서열번호 1 내지 100으로 구성된 군에서 선택되는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100개의 핵산 각각에 특이적으로 결합하는 프라이머 쌍인 것을 특징으로 할 수 있으며, 바람직하게는 서열번호 1 내지 20의 서열로 표시되는 핵산 각각에 특이적인 프라이머 쌍을 포함하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 프라이머 쌍은 서열번호 21 내지 40의 서열로 표시되는 핵산핵산 각각에 특이적인 프라이머 쌍을 포함하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 프라이머 쌍은 서열번호 41 내지 60의 서열로 표시되는 핵산 각각에 특이적인 프라이머 쌍을 포함하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 프라이머 쌍은 서열번호 61 내지 80의 서열로 표시되는 핵산 각각에 특이적인 프라이머 쌍을 포함하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 프라이머 쌍은 서열번호 81 내지 100의 서열로 표시되는 핵산 각각에 특이적인 프라이머 쌍을 포함하는 것을 특징으로 할 수 있다.
본 발명에서 용어 "유방암(breast cancer)"는 유방에 생긴 암을 말하고, 상호교환적으로 "유선암"으로도 불릴 수 있다. 상기 유방암은 유선(mammary gland) 유방암, 소엽(lobule) 유방암, 또는 이들의 조합을 포함할 수 있다. 유방암은 발생 부위에 따라 유관과 유엽의 상피에서 생기는 암과 기질에서 생기는 암으로 크게 두 가지로 나눌 수 있다. 상기 유방암은 복합성 암종(Complex carcinoma: CC) 또는 관상 암종(Ductal carcinoma: DC)의 종류를 포함할 수 있다. 관상 암종은 개체의 유관에 원발적으로 존재하는 유방암의 종류이다.
본 발명에서 용어 "진단(diagnosis)"은 병명을 판정하는 일을 말하고, 유방암의 병명, 병의 상태, 병기, 병인, 합병증의 유무, 예후, 및 재발 등을 포함할 수 있다.
본 발명에서 용어 "전이효소(transposase)"는 전이인자(transposon)의 말단에 결합하고, 절단 및 삽입(cut and paste), 또는 복제적 전이(replicative transposition)에 의해 게놈의 다른 부분으로 이동하는 것을 촉매하는 효소를 말한다. 상기 전이효소는 EC 번호 EC 2.7로 분류되는 효소일 수 있다.
본 발명에 있어서, 상기 전이효소는 Tn5 전이효소일 수 있다. Tn5 전이효소는 레트로바이러스의 인테그라제(integrase)를 포함하는 RNase 수퍼패밀리 중 하나이다. Tn5 전이효소는 절단 및 삽입에 의해 전위할 수 있다. Tn5 전이효소는 DNA의 단편화를 이용한 게놈 시퀀싱 방법, 소위 ATAC-seq 기법에 사용될 수 있다.
본 발명에서 용어 ‘증폭’은 핵산 분자를 증폭하는 반응을 의미한다. 다양한 증폭 반응들이 당업계에 보고 되어 있으며, 이는 중합효소 연쇄반응(이하 PCR이라 한다)(미국 특허 제4,683,195, 4,683,202, 및 4,800,159호), 역전사-중합효소 연쇄반응(이하 RT-PCR로 표기한다)(Sambrook et al., Molecular Cloning. A Laboratory Manual, 3rd ed. Cold Spring Harbor Press(2001)), WO 89/06700 및 EP 329,822의 방법, 리가아제 연쇄 반응(ligase chain reaction; LCR, WO 90/01069), 복구 연쇄 반응(repair chain reaction; EP 439,182), 전사-중재 증폭(transcription-mediated amplification; MA, WO 88/10315), 자가 유지 염기서열 복제(self-sustained sequence replication, WO 90/06995), 타깃 폴리뉴클레오티드 염기서열의 선택적 증폭(selective amplification of target polynucleotide sequences, 미국 특허 제6,410,276호), 컨센서스 서열 프라이밍 중합효소 연쇄 반응(consensus sequence primed polymerase chain reaction; CP-PCR, 미국 특허 제4,437,975호), 임의적 프라이밍 중합효소 연쇄 반응(arbitrarily primed polymerase chain reaction; AP-PCR, 미국 특허 제5,413,909호 및 제5,861,245호), 핵산 염기서열 기반 증폭(nucleic acid sequence based amplification; NASBA, 미국 특허 제5,130,238호, 제5,409,818호, 제5,554,517호, 및 제6,063,603호), 가닥 치환 증폭(strand displacement amplification) 및 고리-중재 항온성 증폭(loop-mediated isothermal amplification; LAMP)을 포함하나, 이에 한정되지는 않는다.
사용 가능한 다른 증폭 방법들은 미국특허 제5,242,794, 5,494,810, 4,988,617호 및 미국 특허 제09/854,317호에 기술되어 있다.
PCR은 가장 잘 알려진 핵산 증폭 방법으로, 그의 많은 변형과 응용들이 개발되어 있다. 예를 들어, PCR의 특이성 또는 민감성을 증진시키기 위해 전통적인 PCR 절차를 변형시켜 터치다운(touchdown) PCR, 핫 스타트(hot start) PCR, 네스티드(nested) PCR 및 부스터(booster) PCR이 개발되었다. 또한, 실시간(real-time) PCR, 분별 디스플레이 PCR(differential display PCR, D-PCR), cDNA 말단의 신속 증폭(rapid amplification of cDNA ends, RACE), DL-PCR(PC), 인버스 중합효소 연쇄반응(inverse polymerase chain reaction: IPCR), 벡토레트(vectorette) PCR, 및 TAIL-PCR(thermal asymmetric interlaced PCR)이 특정한 응용을 위해 개발되었다. PCR에 대한 자세한 내용은 McPherson, M.J., 및 Moller, S.G. PCR. BIOS Scientific Publishers, Springer-Verlag New York Berlin Heidelberg, N.Y. (2000)에 기재되어 있으며, 그의 교시사항은 본 명세서에 참조로 삽입된다.
본 발명에서 멀티플렉스 증폭은 멀티플렉스 PCR(Polymerase Chain Reaction) 증폭이다. 본 발명의 일 구현예에 따르면, 상기 멀티플렉스 PCR 증폭은 57-61℃의 어닐링(annealing) 온도 조건을 갖고, 본 발명의 다른 구현예에 따르면, 상기 멀티플렉스 PCR 증폭은 58-60℃의 어닐링 온도 조건을 가지며, 본 발명의 특정 구현예에 따르면, 상기 멀티플렉스 PCR 증폭은 58.5-59.5℃의 어닐링 온도 조건을 갖는다.
상기 멀티플렉스 PCR 증폭은 PCR을 실시하는 데 적정한 싸이클 수가 요구된다. 본 발명의 일 구현예에 따르면, 상기 멀티플렉스 PCR 증폭은 27-30 싸이클로 실시한다. 본 발명의 멀티플렉스 PCR 증폭을 26 싸이클 이하로 실시하는 경우에 500 RFU 이하의 피크들이 형성되었고, 31 싸이클에서는 2,000 RFU 이상의 피크가 형성되었지만 노이즈가 증가하고 불완전한 A 삽입이 발생하여 적합하지 않다.
본 발명에서, 상기 조성물은 1개 이상의 어댑터(adaptor)를 포함할 수 있다. 상기 어댑터는 유전공학에 이용되는 짧고 합성된 올리고뉴클레오티드를 말한다. 상기 전이효소는 1개 또는 2개의 어댑터가 접합된 전이효소 복합체일 수 있다. 상기 어댑터는 전이효소의 절단 및 삽입에 의해 핵산 단편의 어느 하나 또는 양 말단에 삽입될 수 있다. 상기 어댑터는 핵산 증폭을 위한 프라이머와 동일하거나 상보적인 서열을 포함할 수 있다.
본 발명에서, 상기 핵산은 게놈(genome) DNA, 염색질(chromatin), 및 이들의 단편을 포함한다. 상기 핵산은 열린 해독틀(open reading frame: ORF) 및 조절 영역을 포함할 수 있다. 상기 조절 영역은 프로모터(promoter), 인핸서(enhancer), 사일런서(silencer), 및 비번역 영역(untranslated region: UTR)을 포함할 수 있다.
본 발명에서 용어 ‘프라이머(primer)’는 적합한 온도에서 적합한 완충액 내에서 적합한 조건(즉, 4종의 다른 뉴클레오시드트리포스페이트 및 중합 반응 효소 하에서 주형-지시 DNA 합성의 개시점으로 작용할 수 있는 단일 가닥의 올리고뉴클레오티드를 의미한다. 프라이머의 적합한 길이는 다양한 인자, 예를 들어, 온도와 프라이머의 용도에 따라 차이가 있지만, 전형적으로 15 내지 30개의 뉴클레오티드이다. 짧은 프라이머는 주형과 충분히 안정된 혼성화 복합체를 형성하기 위하여 일반적으로 보다 낮은 온도를 요구할 수 있다. 용어 "전방향 프라이머(forward primer)" 및 "역방향 프라이머(reverse primer)"는 중합 효소 연쇄 반응에 의해 증폭되는 주형의 일정한 부위의 3' 말단 및 5' 말단에 각각 결합하는 프라이머를 의미한다. 프라이머의 서열은 주형의 일부 서열과 완전하게 상보적인 서열을 가질 필요는 없으며, 주형과 혼성화 되어 프라이머 고유의 작용을 할 수 있는 범위 내에서의 충분한 상보성을 가지면 충분하다. 따라서, 일 구체예에 따른 프라이머 세트는 주형인 뉴클레오티드 서열에 완벽하게 상보적인 서열을 가질 필요는 없으며, 이 서열에 혼성화되어 프라이머 작용을 할 수 있는 범위 내에서 충분한 상보성을 가지면 충분한 것으로 해석된다. 이러한 프라이머의 디자인은 주형이 되는 폴리뉴클레오티드의 염기 서열을 참조하여 당업자에 의해 용이하게 실시할 수 있으며, 예를 들어, 프라이머 디자인용 프로그램(예를 들어, PRIMER 3, VectorNTI 프로그램)을 이용하여 할 수 있다.
본 발명에 있어서, 상기 프라이머 쌍은 서열번호 1 내지 100 중 어느 하나의 마커를 증폭할 수 있는 프라이머 쌍이면 제한없이 이용가능하나, 바람직하게는 서열번호 101 내지 300으로 구성된 군에서 선택되는 어느 하나의 프라이머 쌍인 것을 특징으로 할 수 있다.
예를 들어, 본 발명의 서열번호 1로 표시되는 BC3M_102 마커서열을 증폭하기 위한 정방향 프라이머는 서열번호 101로 표시되며, 역방향 프라이머는 서열번호 102로 표시된다. 본 발명의 서열번호 2로 표시되는 BC3M_11 마커서열을 증폭하기 위한 정방향 프라이머는 서열번호 103으로 표시되며, 역방향 프라이머는 서열번호 104로 표시되는 것을 특징을 할 수 있다.
본 발명에 있어서, 상기 프라이머 쌍은 서열번호 101 내지 300으로 표시되는 프라이머 쌍에서, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149 또는 150쌍의 프라이머인 것을 특징으로 할 수 있으나, 바람직하게는 101 내지 140으로 표시되는 프라이머 쌍인 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 프라이머 쌍은 서열번호 141 내지 180으로 표시되는 프라이머 쌍인 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 프라이머 쌍은 서열번호 181 내지 220으로 표시되는 프라이머 쌍인 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 프라이머 쌍은 서열번호 221 내지 260으로 표시되는 프라이머 쌍인 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 프라이머 쌍은 서열번호 261 내지 300으로 표시되는 프라이머 쌍인 것을 특징으로 할 수 있다.
본 발명에서 사용하는 전체 마커 서열은 표 2에 기재되어 있으며, 전체 프라이머 서열은 표 3에 기재하였다.
본 발명에서 상기 마커서열은 하기의 방법으로 스크리닝하는 것을 특징으로 할 수 있다:
(a) 생체시료에서 분리된 핵산을 전이효소(transposase)로 처리하여 DNA의 서열정보(reads)를 획득하는 단계;
(b) 상기 서열정보(reads)를 참조집단의 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
(c) 상기 정렬된 서열정보(reads)에 대하여 시퀀싱 퀄리티 점수(sequencing quality score)를 확인하여 서열정보를 선별하는 단계;
(d) 상기 표준 염색체의 열린 구간을 리드 enrichment가 높은 일정구간(bin)으로 나누고, 상기 선별된 서열정보(reads)에 대하여, 각 구간의 리드 수를 확인하여 수식 1로 계산한 값(RPKM)이 5 미만인 구간은 제외하는 단계;
수식 1=
Figure PCTKR2019015856-appb-I000001
(e) 참조 집단의 정량화한 값을 비교하여 통계적으로 유의미한 차이가 발생하는 구간을 열린 염색질 구조변이 마커 후보군으로 선별하는 단계;
(f) 상기 선별된 마커에 대하여 Real-time PCR을 통하여 이를 확인함으로써 참조 집단과 상이한 열린 염색질 구조를 나타내는 후보를 열린 염색질 구조변이 마커로 결정하는 단계;
본 발명에서 용어 "리드(reads)"는, 당업계에 알려진 다양한 방법을 이용하여 서열정보를 분석한 하나의 핵산 단편을 의미한다. 따라서, 본 명세서에서 용어 “서열정보” 및 “리드”는 시퀀싱 과정을 통해 서열정보를 수득한 결과물이라는 점에서 동일한 의미를 가진다.
본 발명에서 용어 “bin”은, 일정구간 또는 구간과 같은 의미로 사용되며, 염색체 전체 서열의 일부를 의미한다.
본 발명에서 용어, ”참조집단”은 표준 염기서열 데이터베이스와 같이 비교할 수 있는 기준(reference) 집단으로, 현재 특정 질환 또는 병증이 없는 사람의 집단을 의미한다. 본 발명에 있어서, 상기 참조집단의 표준 염색체 서열 데이터베이스에서 표준 염기서열은 서울대학교병원으로부터 제공받은 유방암 환자의 정상 조직을 이용하여 생성한 참조 염색체 일 수 있다.
본 발명에서 용어 “RPKM”은 reads per kilobase of transcript per million mapped reads의 약자로서, 정규화된 피크값을 의미한다.
염색질 내의 열린 지역(Open Chromatin)에 대한 정규화된 피크값을 의미한다. 이는 열린 지역에 맵핑된 read를 대상으로 전체 게놈의 맵핑된 총 read수를 기반으로 해당 지역을 정량화 한 것이다.
본 발명에서 상기 염색질은 진정염색질(euchromatin) 및 이질염색질(heterochromatin)을 포함한다. 상기 염색질은 8개의 히스톤 단백질 코어(core)에 DNA가 약 2바퀴 감긴 뉴클레오좀들을 포함할 수 있다. 뉴클레오좀 사이의 DNA 영역은 "열린 염색질(open chromatin)" 구조를 가질 수 있다. 열린 염색질에는 전사인자, 중합효소 등이 부착되어 전사가 개시될 수 있다. 히스톤 단백질 코어에 감긴 DNA 영역은 "닫힌 염색질(closed chromatin)" 구조를 가질 수 있다. 닫힌 염색질은 DNA와 히스톤 단백질이 결합되어 전사인자, 중합효소 등이 부착할 수 없다. 상기 염색질은 세포내 신호전달 등에 따라 염색질의 구조가 변경될 수 있다.
본 발명에 있어서, 상기 (a) 단계는
(a-i) 생물학적 시료로부터 세포의 핵(nucleus)을 수득하는 단계;
(a-ii) 수득한 세포의 핵에 전이효소 및 어댑터를 포함하는 전이효소 복합체를 가하여, 어느 하나 또는 양 말단이 상기 어댑터로 표지된 핵산 단편을 생성하는 단계;
(a-iii) 생성된 핵산 단편에서 염석 방법(salting-out method), 컬럼크로마토그래피 방법(column chromatography method), 또는 비드 방법(beads method)을 사용하여 단백질, 지방, 및 기타 잔여물을 제거하고 정제된 핵산을 수득하는 단계;
(a-iv) 상기 정제된 핵산에 대하여, 싱글-엔드 시퀀싱(single-end sequencing) 또는 페어-엔드 시퀀싱(pair-end sequencing) 라이브러리(library)를 제작하는 단계;
(a-v) 상기 제작된 라이브러리를 차세대 유전자서열검사기(next-generation sequencer)에 반응시키는 단계; 및
(a-vi) 상기 차세대 유전자서열검사기에서 핵산의 서열정보(reads)를 획득하는 단계를 포함하는 방법으로 수행되는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (a-iii) 및 상기 (a-iv) 단계 사이에, 상기 (a-ii) 단계에서 정제된 핵산을, 효소적 절단, 분쇄 또는 하이드로쉐어방법(hydroshear method)으로 무작위 단편화(random fragmentation)하여 싱글-엔드 시퀀싱 또는 페어-엔드 시퀀싱 라이브러리를 제작하는 단계를 추가로 포함하는 방법으로 수행되는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 차세대 유전자서열 판독기(next-generation sequencer)는 이에 제한되지는 않으나, 일루미나 컴파니의 하이식(Hiseq) 시스템, 일루미나 컴파니의 마이식(Miseq) 시스템, 일루미나 컴파니의 게놈 분석기(GA) 시스템, 로슈 컴파니(Roche Company)의 454 FLX, 어플라이드 바이오시스템즈 컴파니의 SOLiD 시스템, 라이프 테크놀러지 컴파니의 이온토렌트 시스템일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 정렬단계는 이에 제한되지는 않으나, BWA 알고리즘 및 Hg19 서열을 이용하여 수행되는 것일 수 있다.
본 발명에 있어서, 상기 BWA 알고리즘은 BWA-mem, BWA-ALN, BWA-SW 또는 Bowtie2 등이 포함될 수 있으나 이에 한정되는 것은 아니다.
본 발명에서, 상기 (c) 단계에서 용어 “서열정보의 선별”은 퀄리티 점수, 예를 들어 시퀀싱 퀄리티 점수가 일정 요건을 만족하는지를 확인함으로써 해당 데이터를 토대로 추가적인 분석을 수행할지 혹은 분석을 종료할지 여부를 결정하는 절차를 의미한다.
본 발명에 있어서, 상기 (c) 단계는
(c-i) 각 정렬된 핵산서열의 영역을 특정하는 단계; 및
(c-ii) 상기 영역 내에서 시퀀싱 퀄리티 점수가 30 이상이 되는 영역이, 전체 핵산서열의 영역 중 80 % 초과한 영역을 선별하는 단계;를 포함하여 수행되는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (c) 단계는 상기 선별된 영역에서 정렬 퀄리티 점수(mapping quality score)의 기준값을 만족하는 서열을 선별하는 단계를 추가적으로 포함하여 수행되는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (c-i) 단계의 핵산서열의 영역을 특정하는 단계에서, 핵산서열의 영역은 이에 제한되는 않으나, 1kb~1MB일 수 있다.
본 발명에 있어서, 상기 (c-ii) 단계에서, 상기 영역 내에서 시퀀싱 퀄리티 점수는 원하는 기준에 따라 달라질 수 있으나, 구체적으로 30 이상이고, 시퀀싱 퀄리티 점수가 30 이상이 되는 영역이, 전체 핵산서열의 영역 중 70 % 초과한 영역, 보다 구체적으로 75% 초과한 영역, 가장 구체적으로 80% 초과한 영역을 선별하는 것이다.
본 발명에 있어서, 상기 (c-iii) 단계에서, 상기 기준값은 상기 정렬 퀄리티 점수(mapping quality score)가는 원하는 기준에 따라 달라질 수 있으나, 구체적으로는 15 내지 70, 보다 구체적으로는 30 내지 65, 가장 구체적으로는 60일 수 있다.
본 발명에 있어서, 상기 (d)단계의 리드 enrichment가 높은 일정구간(bin)은 15kb 내지 50kb인 것을 특징으로 할 수 있다. 즉, 본 발명에서 일정구간(bin)은 이에 제한되는 않으나, 1kb 내지 1MB, 구체적으로 1kb 내지 500 kb, 보다 구체적으로는 15kb 내지 100kb, 보다 더 구체적으로 15kb 내지 50kb, 가장 구체적으로 15kb 일 수 있다.
본 발명에 있어서, 상기 (e) 단계의 통계적으로 유의미한 차이는 하기 수식 2로 계산한 p-value가 0.05 미만이고, 수식 3으로 계산한 fold change가 1.5배 이상인 것을 특징으로 할 수 있다:
수식 2=
Figure PCTKR2019015856-appb-I000002
여기서 X1, X2는 각 그룹(1: 대조군, 2: 비교군)에 대한 RPKM 평균값이고, n1, n2는 각 그룹에 해당하는 샘플 수를 의미한다.
예를 들어 Normal과 Cancer라는 두 그룹을 비교할 때 Normal 샘플이 10개, 암 샘플이 10개라고 하면, X1은 Normal 샘플 10개에 대한 평균값, X2는 Cancer 샘플 10개에 대한 평균값을 의미한다.
수식 3=
Figure PCTKR2019015856-appb-I000003
여기서, control은 대조군을 의미하며, treatment는 비교군을 의미한다.
본 발명에서 대조군은 바람직하게는 정상 세포군 또는 타겟 질환 외의 질병을 가지는 세포군이 될 수 있고, 비교군은 타겟 질환 세포군, 바람직하게는 특정 암 세포군이 될 수 있다.
본 발명에 있어서, 상기 (f) 단계는
(f-i) 생체시료에서 분리된 핵산을 전이효소(transposase)로 처리하여 핵산 단편을 수득하는 단계; 및
(f-ii) 상기 핵산 단편을 증폭할 수 있는 프라이머를 이용하여 상기 핵산 단편을 증폭하여, 상기 핵산의 염색질 구조를 검출하는 단계를 포함하여 수행되는 것을 특징으로 할 수 있다.
본 발명의 용어 “표준 염색체”는 유전적으로 정상(normal)이라고 판단된 복수 기증자의 유전정보의 조합체이며, 예를 들어 NCBI에서 제공하는 GRCh37(Hg19) 데이터일 수 있다.
본 발명은 다른 관점에서,
생체시료에서 분리된 핵산을 전이효소(transposase)로 처리하여 핵산 단편을 수득하는 단계; 및
서열번호 1 내지 100으로 구성된 군에서 선택되는 어느 하나 이상의 핵산에 특이적인 프라이머 쌍을 이용하여 상기 처리된 핵산 단편을 증폭하여, 상기 핵산의 염색질 구조를 검출하는 단계를 포함하는 유방암 진단 방법에 관한 것이다.
본 발명에 있어서, 상기 프라이머 쌍은 서열번호 101 내지 300으로 표시되는 프라이머 쌍에서, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149 또는 150쌍의 프라이머인 것을 특징으로 할 수 있으나, 바람직하게는 101 내지 140으로 표시되는 프라이머 쌍인 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 프라이머 쌍은 서열번호 141 내지 180으로 표시되는 프라이머 쌍을 추가로 포함하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 프라이머 쌍은 서열번호 181 내지 220으로 표시되는 프라이머 쌍을 추가로 포함하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 프라이머 쌍은 서열번호 221 내지 260으로 표시되는 프라이머 쌍을 추가로 포함하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 프라이머 쌍은 서열번호 261 내지 300으로 표시되는 프라이머 쌍을 추가로 포함하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 생물학적 시료는 혈액, 골수액, 림프액, 타액, 누액, 점막액, 양수, 또는 이들로부터 분리된 세포일 수 있다. 상기 생물학적 시료는 혈액으로부터 분리된 세포일 수 있다. 예를 들어, 상기 세포는 말초 혈액 단핵 세포(peripheral blood mononuclear cel: PBMC)이다.
존 발명에서, 상기 생물학적 시료로부터 세포의 핵(nucleus)을 수득하는 방법은 당해 업계에서 통상적으로 사용되는 방법을 사용하여 수행될 수 있다. 예를 들어, 세포막 분해 용액을 사용하여 핵을 분리할 수 있다.
본 발명에서, 상기 방법은 수득된 세포의 핵에 전이효소를 가하여, 핵산 단편을 생성하는 단계를 포함한다.
상기 전이효소는 열린 염색질에 결합할 수 있다. 상기 전이효소는 열린 염색질에 비특이적으로 결합하여, 상기 세포의 핵에서 뉴클레오좀 사이의 열린 염색질을 절단할 수 있다.
상기 방법은 서열번호 1 내지 100으로 구성된 군에서 선택되는 어느 하나의 핵산에 특이적인 프라이머의 존재 하에서 상기 핵산 단편을 증폭하여, 상기 핵산의 염색질 구조를 검출하는 단계를 포함한다.
상기 서열번호 1 내지 100로 구성된 군에서 선택되는 어느 하나의 핵산이 열린 염색질의 구조를 가질 경우, 염색질에 전이효소가 결합하여 상기 핵산의 단편이 생성될 수 있다. 생성된 핵산 단편을 서열번호 1 내지 100으로 구성된 군에서 선택되는 어느 하나의 핵산에 특이적으로 증폭할 경우, 상기 핵산으로부터 증폭 산물이 생성될 수 있다. 상기 1 내지 100으로 구성된 군에서 선택되는 어느 하나가 닫힌 염색질의 구조를 가질 경우, 상기 핵산에 전이효소가 결합할 수 없고 상기 핵산의 단편이 생성될 수 없다. 반응물에 대해 서열번호 1 내지 100으로 구성된 군에서 선택되는 어느 하나의 핵산에 특이적으로 증폭할 경우, 상기 핵산의 단편이 없어 증폭 산물이 생성되지 않거나 적게 생성될 수 있다
즉, 서열번호 1 내지 100으로 구성된 군에서 선택되는 어느 하나의 핵산의 증폭 양이 참조 집단에 비하여 통계적으로 유의미할 정도로 많을 경우, 생물학적 시료가 검출된 객체는 유방암이 발생할 가능성이 높다는 것을 의미한다.
이상으로 본 발명 내용의 특정한 부분을 상세히 기술하였는 바, 당업계의 통상의 지식을 가진 자에게 있어서 이러한 구체적 기술은 단지 바람직한 실시 양태일 뿐이며, 이에 의해 본 발명의 범위가 제한되는 것이 아닌 점은 명백할 것이다. 따라서, 본 발명의 실질적인 범위는 첨부된 청구항들과 그것들의 등가물에 의하여 정의된다고 할 것이다.
실시예
이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 예시하기 위한 것으로서, 본 발명의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지는 않는 것은 당업계에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.
실시예 1: 각 암종에 대한 ATAC Library 제작 및 Sequencing.
약 20mg의 얼린 조직을 파쇄하여 NIB(Nuclei isolation buffer)를 이용하여 nuclei를 분리한 뒤, 필터링을 통해 큰 조직 덩어리를 제거하였다. TD buffer와 Tn5 전이효소(Addgene, pTXB1-Tn5 vector)를 이용하여 태그맨테이션을 수행하였다. 그 후 HiFi Hotstart ReadyMix (KAPA: KK2601) 키트를 이용하여 nextera PCR Primer를 부착후 PCR amplification을 수행하였다. PCR amplified DNA를 이용하여 ATAC library를 제작한 뒤 Qiagen PCR purification 키트를 이용하여 정제하였다. Illumina Hiseq4000 system인 차세대 염기서열 기기를 이용하여 서열을 판독하였다.
Figure PCTKR2019015856-appb-T000001
실시예 2: Pre-Processing analysis
서열정보(Read)를 이용하여 염색질의 개방된 지역을 찾기 전, 먼저 Illumina Hiseq4000을 이용하여 DNA 서열이 정확하게 판독이 되었는지 확인하기 위하여 대표적인 서열 검사 프로그램인 FastQC를 이용하여 서열 품질 검사(Quality Check)를 수행하였다. 일부 서열에서 Adapt 및 Primer까지 판독되거나, 서열의 품질이 낮을 경우, 잘못 판독된 서열 및 낮은 품질의 서열(Q20 이하)을 Trim_galore, Trimmomatic과 같은 제거 프로그램을 이용하여 제거하였다.
품질 검사가 완료된 짧은 서열들이 이미 알려진 인간의 참조유전체서열(Reference genome sequence)에서 어디에서 유래되었는지 확인하기 위하여 대표적인 맵핑 프로그램인 Bowtie2를 이용하여 맵핑(Mapping, Alignment)과정을 수행하였다.
이후 다운스트림(Downstream) 분석을 위하여 Samtools 프로그램을 이용하여 정렬화(Sorting) 및 인덱싱(Indexing)을 수행하였다. 맵핑된 서열 중에서는 실험과정(PCR)중 발생한 편향(bias)된 데이터가 존재하기 때문에 이를 제거하기 위하여 Picard(MarkDuplicates)를 이용하여 PCR 중 발생한 복제된 서열을 제거하였다.
실시예 3: Peak Calling & Classification
각 암종에 대한 염색질의 개방된 지역을 검출하기 위하여 Genrich툴을 이용하여 염색질의 개방된 지역을 검출하였다. 이렇게 추출한 염색질의 개방된 지역을 주석화(Annotation)을 통하여 각 지역에 대한 좀 더 정확한 정보를 기재하였다.
Enhancer 지역의 염색질 구조 변화를 확인하기 위하여 intergenic region에 존재하는 피크를 추출하였고, 그 중에서 TSS(Transcription start site)로부터 2kb 이상, 50kb 이하로 떨어진 대상을 이용하였다. 정상 및 유방암 조직에 대한 특이적 및 공통적인 염색질 구조 변화를 분류하기 위하여 Homer(MergePeak)를 이용하여 이를 분류하였다. 일부 bias를 peak로 인식하는 문제를 해결하고자 기준치(임계값 : RPKM < 5, 수식 1)을 넘지 못하는 peak에 대해서는 제거 작업을 한 뒤, 두 그룹 간의 통계적으로 유의미한 차이(p-value < 0.05 수식 2, Fold Change 1.5배 이상, 수식 3)가 발생하는 부분을 재분류하는 과정을 수행하였다.
수식 1=
Figure PCTKR2019015856-appb-I000004
수식 2=
Figure PCTKR2019015856-appb-I000005
여기서 X1, X2는 각 그룹(1:대조군, 2:비교군)에 대한 RPKM 평균값이고, n1, n2는 각 그룹에 해당하는 샘플 수를 의미한다.
수식 3=
Figure PCTKR2019015856-appb-I000006
여기서, control은 대조군을 의미하며, treatment는 비교군을 의미한다.
그 결과, 유방암 특이적인 열린 염색질 구조변이 마커를 확인하였다(도 3, 도 4, 도 5).
Figure PCTKR2019015856-appb-T000002
Figure PCTKR2019015856-appb-I000007
Figure PCTKR2019015856-appb-I000008
Figure PCTKR2019015856-appb-I000009
Figure PCTKR2019015856-appb-I000010
Figure PCTKR2019015856-appb-I000011
Figure PCTKR2019015856-appb-I000012
Figure PCTKR2019015856-appb-I000013
Figure PCTKR2019015856-appb-I000014
Figure PCTKR2019015856-appb-I000015
Figure PCTKR2019015856-appb-I000016
Figure PCTKR2019015856-appb-I000017
Figure PCTKR2019015856-appb-I000018
Figure PCTKR2019015856-appb-I000019
Figure PCTKR2019015856-appb-I000020
Figure PCTKR2019015856-appb-I000021
Figure PCTKR2019015856-appb-I000022
Figure PCTKR2019015856-appb-I000023
Figure PCTKR2019015856-appb-I000024
Figure PCTKR2019015856-appb-I000025
Figure PCTKR2019015856-appb-I000026
실시예 4: 암종 특이적 염색질의 개방된 지역 검증
유방암 특이적인 지역에 대한 검증을 위하여, 하기 표 3에 기재된 프라이머를 이용하여 실시예 1에 기재된 방법으로 수득한 핵산 단편을 증폭하였다.
Figure PCTKR2019015856-appb-T000003
Figure PCTKR2019015856-appb-I000027
Figure PCTKR2019015856-appb-I000028
Figure PCTKR2019015856-appb-I000029
Figure PCTKR2019015856-appb-I000030
Figure PCTKR2019015856-appb-I000031
Figure PCTKR2019015856-appb-I000032
그 결과, 도 4 및 도 5의 결과와 마찬가지로 암 발생 환자에서 열린 염색질 구조로 변형된 마커서열에서는 증폭산물이 검출되고, 닫힌 염색질 구조로 변형된 마커서열에서는 증폭산물이 검출되지 않는 것을 확인하다.
이상으로 본 발명 내용의 특정한 부분을 상세히 기술하였는 바, 당업계의 통상의 지식을 가진 자에게 있어서 이러한 구체적 기술은 단지 바람직한 실시 양태일 뿐이며, 이에 의해 본 발명의 범위가 제한되는 것이 아닌 점은 명백할 것이다. 따라서, 본 발명의 실질적인 범위는 첨부된 청구항들과 그것들의 등가물에 의하여 정의된다고 할 것이다.
본 발명에 따른 열린 염색질 구조변이 마커는 염색질의 구조상 변이를 높은 정확도로 확인할 수 있어 암 진단 마커로서 유용하며, 상기 마커를 검출하기 위한 조성물을 이용하여 염색질 구조변이를 검출할 경우, 새로운 암 진단 마커로서 활용이 가능하다.
전자파일 첨부하였음.

Claims (20)

  1. 전이효소(transposase); 및
    서열번호 1 내지 100으로 구성된 군에서 선택되는 어느 하나의 핵산에 특이적인 프라이머 쌍을 포함하는 유방암 진단용 조성물.
  2. 제1항에 있어서, 상기 전이효소는 Tn5 전이효소인 것을 특징으로 하는 조성물.
  3. 제1항에 있어서, 상기 핵산은 서열번호 1 내지 20의 서열로 표시되는 핵산 각각에 특이적인 프라이머 쌍을 포함하는 것을 특징으로 하는 유방암 진단용 조성물.
  4. 제3항에 있어서, 상기 핵산은 서열번호 21 내지 40의 서열로 표시되는 핵산 각각에 특이적인 프라이머 쌍을 포함하는 것을 특징으로 하는 유방암 진단용 조성물.
  5. 제4항에 있어서, 상기 핵산은 서열번호 41 내지 60의 서열로 표시되는 핵산 각각에 특이적인 프라이머 쌍을 포함하는 것을 특징으로 하는 유방암 진단용 조성물.
  6. 제5항에 있어서, 상기 핵산은 서열번호 61 내지 80의 서열로 표시되는 핵산 각각에 특이적인 프라이머 쌍을 포함하는 것을 특징으로 하는 유방암 진단용 조성물.
  7. 제6항에 있어서, 상기 핵산은 서열번호 81 내지 100의 서열로 표시되는 핵산 각각에 특이적인 프라이머 쌍을 포함하는 것을 특징으로 하는 유방암 진단용 조성물.
  8. 제1항에 있어서, 상기 프라이머 쌍은 서열번호 101 내지 300으로 구성된 군에서 선택되는 어느 하나 이상의 프라이머 쌍인 것을 특징으로 하는 유방암 진단용 조성물.
  9. 제3항에 있어서, 상기 프라이머 쌍은 서열번호 101 내지 140으로 표시되는 프라이머 쌍인 것을 특징으로 하는 유방암 진단용 조성물.
  10. 제4항에 있어서, 상기 프라이머 쌍은 서열번호 141 내지 180으로 표시되는 프라이머 쌍인 것을 특징으로 하는 유방암 진단용 조성물.
  11. 제5항에 있어서, 상기 프라이머 쌍은 서열번호 181 내지 220으로 표시되는 프라이머 쌍을 추가로 포함하는 것을 특징으로 하는 유방암 진단용 조성물.
  12. 제6항에 있어서, 상기 프라이머 쌍은 서열번호 221 내지 260으로 표시되는 프라이머 쌍인 것을 특징으로 하는 유방암 진단용 조성물.
  13. 제7항에 있어서, 상기 프라이머 쌍은 서열번호 261 내지 300으로 표시되는 프라이머 쌍인 것을 특징으로 하는 유방암 진단용 조성물.
  14. 체시료에서 분리된 핵산을 전이효소(transposase)로 처리하여 핵산 단편을 수득하는 단계; 및
    서열번호 1 내지 100으로 구성된 군에서 선택되는 어느 하나 이상의 핵산에 특이적인 프라이머 쌍을 이용하여 상기 처리된 핵산 단편을 증폭하여, 상기 핵산의 염색질 구조를 검출하는 단계를 포함하는 유방암 진단방법.
  15. 제14항에 있어서, 상기 핵산의 염색질 구조를 검출하는 방법은 증폭산물의 존재유무를 검출하는 것을 특징으로 하는 유방암 진단방법.
  16. 제14항에 있어서, 상기 프라이머 쌍은 서열번호 101 내지 140으로 표시되는 프라이머 쌍인 것을 특징으로 하는 유방암 진단방법.
  17. 제16항에 있어서, 상기 프라이머 쌍은 서열번호 141 내지 180으로 표시되는 프라이머 쌍을 추가로 포함하는 것을 특징으로 하는 유방암 진단방법.
  18. 제17항에 있어서, 상기 프라이머 쌍은 서열번호 181 내지 220으로 표시되는 프라이머 쌍을 추가로 포함하는 것을 특징으로 하는 유방암 진단방법.
  19. 제18항에 있어서, 상기 프라이머 쌍은 서열번호 221 내지 260으로 표시되는 프라이머 쌍을 추가로 포함하는 것을 특징으로 하는 유방암 진단방법.
  20. 제19항에 있어서, 상기 프라이머 쌍은 서열번호 261 내지 300으로 표시되는 프라이머 쌍을 추가로 포함하는 것을 특징으로 하는 유방암 진단방법.
PCT/KR2019/015856 2019-04-05 2019-11-19 개인의 전이효소-접근가능한 염색질 시퀀싱 정보를 이용한 암 진단 마커 및 이의 용도 WO2020204297A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/601,332 US20220170110A1 (en) 2019-04-05 2019-11-19 Cancer diagnostic marker using transposase-accessible chromatin sequencing information about individual, and use thereof

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2019-0040056 2019-04-05
KR20190040056 2019-04-05
KR10-2019-0147570 2019-11-18
KR1020190147570A KR102192455B1 (ko) 2019-04-05 2019-11-18 개인의 전이효소-접근가능한 염색질 시퀀싱 정보를 이용한 암 진단 마커 및 이의 용도

Publications (1)

Publication Number Publication Date
WO2020204297A1 true WO2020204297A1 (ko) 2020-10-08

Family

ID=72667337

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/015856 WO2020204297A1 (ko) 2019-04-05 2019-11-19 개인의 전이효소-접근가능한 염색질 시퀀싱 정보를 이용한 암 진단 마커 및 이의 용도

Country Status (2)

Country Link
US (1) US20220170110A1 (ko)
WO (1) WO2020204297A1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007078599A2 (en) * 2005-12-16 2007-07-12 The Board Of Trustees Of The Leland Stanford Junior University Functional arrays for high throughput characterization of gene expression regulatory elements
US20160060691A1 (en) * 2013-05-23 2016-03-03 The Board Of Trustees Of The Leland Stanford Junior University Transposition of Native Chromatin for Personal Epigenomics
KR20190024253A (ko) * 2017-08-31 2019-03-08 서울대학교산학협력단 후성유전학적 바이오마커를 이용한 유방암 진단용 조성물, 키트, 및 이를 이용한 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007078599A2 (en) * 2005-12-16 2007-07-12 The Board Of Trustees Of The Leland Stanford Junior University Functional arrays for high throughput characterization of gene expression regulatory elements
US20160060691A1 (en) * 2013-05-23 2016-03-03 The Board Of Trustees Of The Leland Stanford Junior University Transposition of Native Chromatin for Personal Epigenomics
KR20190024253A (ko) * 2017-08-31 2019-03-08 서울대학교산학협력단 후성유전학적 바이오마커를 이용한 유방암 진단용 조성물, 키트, 및 이를 이용한 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHEN, H.: "New insights on human essential genes based on integrated analysis", BIORXIV, 10 October 2018 (2018-10-10), pages 1 - 30, XP055747208 *
CORCES, M. R.: "The chromatin accessibility landscape of primary human cancers", SCIENCE, vol. 362, 26 October 2018 (2018-10-26), pages 1 - 13, XP055723802 *

Also Published As

Publication number Publication date
US20220170110A1 (en) 2022-06-02

Similar Documents

Publication Publication Date Title
Frumkin et al. Authentication of forensic DNA samples
WO2015183025A1 (ko) 표적 특이적 뉴클레아제를 이용한 표적 dna의 민감한 검출 방법
WO2018199589A1 (ko) 위암의 생물학적 특성에 기반한 군 구분 및 예후 예측 시스템
WO2016167408A1 (ko) 차세대 염기서열 분석기법을 이용한 장기 이식 거부 반응 예측 방법
WO2017122896A1 (ko) 수산생물전염병 원인바이러스의 판별 및 검출용 유전자 마커,및 이를 이용한 원인바이러스의 판별 및 검출 방법
WO2021107676A1 (ko) 인공지능 기반 염색체 이상 검출 방법
WO2024080731A1 (ko) 췌장암 진단을 위한 메틸화 마커 유전자 및 이의 용도
WO2015126078A1 (ko) 핵산과 신호 프로브의 비대칭 등온증폭을 이용한 핵산의 검출방법
WO2021075797A2 (ko) 특정 유전자의 cpg 메틸화 변화를 이용한 간암 진단용 조성물 및 이의 용도
WO2018169145A1 (ko) 진행성 위암 환자의 수술 후 예후 또는 항암제 적합성 예측 시스템
WO2020096248A1 (ko) 폐암 조직 내 세포 유래 돌연변이를 검출하기 위한 프로브 제조 및 검출 방법
WO2021154009A1 (ko) 특정 유전자의 CpG 메틸화 변화를 이용한 방광암 진단용 조성물 및 이의 용도
WO2020004718A1 (ko) 고추 과피의 신미 정도를 판별하기 위한 마커 및 이의 용도
Li et al. Analysis of long non-coding RNA in Cryptosporidium parvum reveals significant stage-specific antisense transcription
Biltueva et al. Genomic organization and physical mapping of tandemly arranged repetitive DNAs in sterlet (Acipenser ruthenus)
WO2022075788A1 (ko) LINC01798 유전자의 CpG 메틸화 변화를 이용한 대장암, 직장암 또는 대장 선종 진단용 조성물 및 이의 용도
WO2022097844A1 (ko) 유전자 복제수 변이 정보를 이용하여 췌장암 환자의 생존 예후를 예측하는 방법
WO2017094941A1 (ko) 핵산의 혼합물을 포함하는 샘플에서 복제수 변이를 결정하는 방법
WO2024043743A1 (ko) Flt3 유전자 증폭용 조성물 및 이의 용도
WO2020204297A1 (ko) 개인의 전이효소-접근가능한 염색질 시퀀싱 정보를 이용한 암 진단 마커 및 이의 용도
WO2022108407A1 (ko) 핵산 길이 비를 이용한 암 진단 및 예후예측 방법
WO2018194280A1 (ko) SDC2(Syndecan 2) 유전자의 메틸화 검출방법
WO2017146432A1 (ko) 프로히비틴 유전자 타깃 백혈병 진단용 키트 및 이를 이용한 진단 방법
EP3559266A1 (en) Method and system for sequence alignment and variant calling
WO2021167413A1 (ko) 핵산의 메틸화 차이를 이용한 마커 선별방법, 메틸 또는 탈메틸 마커 및 이 마커를 이용한 진단방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19922706

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19922706

Country of ref document: EP

Kind code of ref document: A1