WO2017217694A2 - 돌연변이 발생률의 측정 방법 - Google Patents

돌연변이 발생률의 측정 방법 Download PDF

Info

Publication number
WO2017217694A2
WO2017217694A2 PCT/KR2017/005952 KR2017005952W WO2017217694A2 WO 2017217694 A2 WO2017217694 A2 WO 2017217694A2 KR 2017005952 W KR2017005952 W KR 2017005952W WO 2017217694 A2 WO2017217694 A2 WO 2017217694A2
Authority
WO
WIPO (PCT)
Prior art keywords
sequence
landmark
primer
adapter
template
Prior art date
Application number
PCT/KR2017/005952
Other languages
English (en)
French (fr)
Other versions
WO2017217694A3 (ko
Inventor
정상균
오수아
Original Assignee
한국한의학연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020170061225A external-priority patent/KR101915701B1/ko
Application filed by 한국한의학연구원 filed Critical 한국한의학연구원
Priority to US16/310,236 priority Critical patent/US11959131B2/en
Priority to EP17813518.2A priority patent/EP3474168B1/en
Priority to CN201780037881.6A priority patent/CN109416930B/zh
Publication of WO2017217694A2 publication Critical patent/WO2017217694A2/ko
Publication of WO2017217694A3 publication Critical patent/WO2017217694A3/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Definitions

  • the present invention relates to a method for measuring mutation incidence comprising preparing a library for Next Generation Sequencing (NGS).
  • NGS Next Generation Sequencing
  • Mutations are one of the most remarkable areas of life science, including the prediction of disease.
  • interest in health is increasing. Therefore, research is being actively conducted to measure the incidence of mutations in order to increase the predictability of disease for improving quality of life.
  • Korean Patent Publication No. 2015-0143025 discloses that mutations in the filaggrin gene can be detected using peptide nucleic acid (PNA).
  • PNA peptide nucleic acid
  • studies using PNA to detect mutations in epidermal growth factor receptor (EGFR) have been reported continuously (Tuberc Respir Dis 2010; 69: 271-278).
  • PNAs can not be produced naturally and can only be manufactured synthetically, which is very expensive and has limitations that cannot be used for measuring large mutation incidence.
  • the mutation detection method using PNA can only detect mutations of specific genes, and there is a limit to detection of randomly occurring mutations. Therefore, various studies for measuring the incidence of mutations are still required.
  • the present inventors have made efforts to develop a method for measuring a mutation occurrence rate with high accuracy while at the same time measuring the incidence of large-scale mutations, and thus amplifying a target gene having a random sequence and an adapter to analyze the nucleotide sequence.
  • the present invention has been completed by developing a method of measuring mutation incidence, which includes an improved accuracy and can measure a wide range of occurrences of randomly occurring mutations.
  • the present invention can measure the variants included therein by varying the dielectric material to be applied, and can provide a more accurate measurement value because the distortion caused by various noises introduced in the experimental process is eliminated by the characteristics of the invention. have.
  • it can be applied to measure the content and extent of heteroplasmy in mitochondrial DNA or to measure the ecology of microorganisms from microbial genomes.
  • the main object of the present invention is (1) preparing a library for Next Generation Sequencing (NGS), comprising steps (a) to (c): (a) extracted from an individual Cutting each genomic DNA having a landmark with a restriction enzyme, and connecting a adapter including a different random sequence to both ends of each cut genomic DNA to prepare a DNA-adapter linkage; (b) using the DNA-adapter conjugate prepared in step (a) as a template, the first primer binding to the 5 'end of the landmark in the template, and the second primer binding to the 3' end of the adapter.
  • NGS Next Generation Sequencing
  • step (c) using the amplification product prepared in step (b) as a template, performing a PCR using a primer pair that binds to both ends of the template; (2) a second step of determining the sequence of each genome fragment included in the library through NGS; (3) a third step of sorting the amplification products prepared in step (c) based on n landmarks on a standard genomic sequence to group the amplification products into n; (4) A fourth step of subgrouping the amplification products constituting the group by random sequence, selecting one dielectric fragment per subgroup, and selecting m i dielectric fragments by group (where m i is the i-th land) Number of dielectric pieces selected in the mark); (5) a fifth step of comparing the base sequences of the m i genomic fragments to determine one representative base sequence from which mutations are excluded for each group; 6 to determine the n groups of m i of the dielectric piece in the case of having a representative base sequence different
  • genome fragments selectively captured from the sample to be analyzed can be amplified in a manner in which templates are distinguished, and nucleotide sequences of each template can be compared to accurately measure the size and incidence of mutations of the analyzed genome fragments.
  • the effects of changes in the environment, such as drug, radiation, gene composition, aging, and stress on the subject can be measured for mutations in the target sample. It can be useful for testing, diagnosis, management and evaluation.
  • 1 is a schematic diagram showing a method for measuring the incidence of mutations from a sample.
  • FIG. 2 is a diagram showing the types of templates and primers used to construct DNA sequence libraries of genomic fragments including random sequences and adapters.
  • Figure 3a is a photograph showing the result of electrophoresis on 2% agarose gel after amplifying the dielectric fragment.
  • Figure 3b is a photograph showing the results of electrophoresis of a DNA sequence library of genomic fragments on a 2% agarose gel.
  • Figure 4 is a photograph showing the analysis results for the nucleotide sequence obtained through NGS.
  • FIG. 5 is a photograph showing a dielectric fragment having one different nucleotide sequence as a result of nucleotide sequence analysis of the dielectric fragment.
  • Figure 6 is a graph showing the results of measuring the mutation incidence of 28 samples.
  • a DNA-adapter conjugate is prepared by cleaving genomic DNA having a landmark, extracted from an individual, with restriction enzymes, and connecting adapters having different random sequences to both ends of each cleaved genomic DNA. step;
  • step (b) using the DNA-adapter conjugate prepared in step (a) as a template, the first primer binding to the 3 'end of the landmark in the template, and the second primer binding to the 5' end of the adapter. Performing PCR using PCR to obtain an amplification product;
  • step (c) using the amplification product prepared in step (b) as a template and performing PCR using a primer pair that binds to both ends of the template;
  • step (c) (3) a third step of sorting the amplification products prepared in step (c) based on n landmarks on a standard genomic sequence to group the amplification products into n;
  • AMR is the accumulated mutation rate; M is the total number of mutations; m i is the number of genomic fragments selected from the i-th landmark; l i is the base sequence sequenced from the genomic fragments of the i-th landmark) Means the number of)
  • the first step provides a step of preparing a library for Next Generation Sequencing (NGS) comprising steps (a) to (c).
  • NGS Next Generation Sequencing
  • next Generation Sequencing refers to a high-speed analysis method for nucleotide sequences of genomes, and may be used in combination with high-throughput sequencing, massively parallel sequencing, or second generation sequencing.
  • the term "library” refers to a set of fragments of a gene obtained by cutting with a restriction enzyme, and the like, but may be a set of introducing a fragment of the gene into a vector, but is not limited thereto.
  • the library may be prepared through the following steps (a) to (c), and the library may be used to measure the mutation incidence rate.
  • Step (a) is a DNA-adapter conjugate by cutting genomic DNA having a landmark, extracted from an individual, with restriction enzymes, and connecting adapters having different random sequences to both ends of each cut genomic DNA. It provides a step of preparing.
  • the term "individual” may mean any animal including a human being in need of measuring a mutation rate.
  • Method for extracting the genomic DNA from the subject can be used without limitation methods used in the art.
  • the term "landmark” refers to a specific base sequence for distinguishing it from other base sequences on genomic DNA.
  • it may be a specific nucleotide sequence that appears repeatedly in genomic DNA, and specifically, it repeats in a genome such as a repeat sequence of a long interspersed nuclear element (LINE) or a short interspersed nuclear element (SINE) series or a specific restriction enzyme recognition site.
  • the base sequence may be, but is not limited thereto, and any base sequence capable of measuring a mutation rate of a specific site by distinguishing it from other base sequences may be used without limitation.
  • the L1HS base sequence which is a LINE-based repeat sequence, was used as a landmark for measuring mutation incidence.
  • the term "adapter” refers to a nucleotide sequence of a partial double helix structure used to obtain an amplification product including all or a portion of a landmark and a nucleotide sequence of a restriction enzyme cleavage site, and a genome cleaved with a restriction enzyme It can bind to both ends of DNA.
  • the adapter may include a random sequence.
  • One end of the adapter may comprise a sequence that complementarily binds to a genomic DNA site cleaved with a restriction enzyme.
  • the adapter may include a base sequence capable of attaching a primer when PCR is performed in the preparation of an amplification product for measuring mutation incidence.
  • the genomic DNA of human leukocyte cells was cleaved using DpnII restriction enzyme, and a DpnII adapter including a random sequence capable of binding to the cleavage site of the restriction enzyme was attached to the cleaved genomic DNA. I was.
  • the adapter of the present invention in order to capture all the complementary strands of the landmark DNA, the phosphate group may be coupled to the 5 'position.
  • one or more mismatch nucleotides may be included in the complementary binding site of the adapter.
  • restriction enzymes that produce non-palindrom overhang can be used to prevent binding between adapters.
  • the restriction enzyme may be BstNI, or AvaII restriction enzyme, but is not limited thereto.
  • random sequence refers to any 5 to 11 nucleotides used to distinguish the origin of genomic DNA extracted from an individual, and may include a specific base sequence.
  • the random sequence may bind to both ends of genomic DNA cleaved with a restriction enzyme, and shows a different sequence for each origin of the genomic DNA to determine the incidence of mutation by the origin of the genomic DNA when measuring the incidence of mutation from the amplification product. It is easy.
  • the random sequence may be located on a single strand of the partial double helix structure of the adapter, but is not limited thereto.
  • any seven nucleotides were used in a random sequence.
  • DNA-adapter conjugate refers to a structure in which a genomic DNA cleaved with the restriction enzyme and an adapter is connected, and is used as a template for amplification for measuring mutation incidence.
  • the linker may comprise a random sequence, for example, the random sequence may be located between the genomic DNA and the adapter.
  • Step (b) is a DNA-adapter conjugate prepared in step (a) as a template, the first primer to bind to the 3 'end of the landmark in the template, and the agent binding to the 5' end of the adapter PCR is performed using two primers to provide amplification products (b-1).
  • the first primer is a primer that binds to the 3 'end of the landmark
  • the second primer is a primer that binds to the 5' end of the adapter.
  • the term "amplified product” refers to a result of PCR performed using a first primer and a second primer, and may include landmarks, random sequences, genome fragments, and adapters. Specifically, the amplification product may include all or part of the sequence of the landmark, and may include all or part of the sequence of the adapter, but is not limited thereto.
  • the term “dielectric fragment” is a genome including genomic DNA to be measured for mutation incidence, and may bind to landmarks and random sequences to distinguish it from other genomic DNA.
  • the genome fragment may include one or more bases, and may include all or part of a cleavage site of genomic DNA by restriction enzymes in step (a).
  • a genomic DNA cleaved by a restriction enzyme, a DNA-adapter linkage comprising a random sequence and an adapter as a template, and binds to the 3 'end of the L1HS landmark included in the template.
  • PCR was carried out using one primer and a second primer which binds to the 5 'end of the adapter to obtain an amplification product.
  • the step (b) is a nested by using the prepared amplification product as a template, the forward primer to bind to all or part of the base sequence of the landmark and the reverse primer to bind to all or part of the adapter except the random sequence It may further comprise the step (b-2) of performing a PCR.
  • nested PCR refers to a PCR for removing unwanted amplification products by using a primary PCR amplification product as a template and specifically selecting only desired amplification products.
  • the nested PCR may remove unwanted amplification products, and thus may exhibit an effect of improving accuracy when measuring mutation incidence in the present invention.
  • primers respectively binding to the landmarks and adapters that capture the genomic fragments may be used.
  • any one of the primers may be a nucleotide sequence of the landmark. It may bind to all or part of, and the other one of the primers may bind to all or part of the base sequence of the adapter.
  • primers may be primers in which a base sequence suitable for next-generation sequencing is added, but is not limited thereto.
  • Step (c) provides a step of using the amplification product prepared in step (b) as a template, and performing PCR using a primer pair that binds to both ends of the template.
  • the primer pair of step (c) may bind to both ends of the amplification product prepared in step (b).
  • the primer pair consists of a first primer and a second primer containing different indicators for each template, so that it is easy to distinguish the library of the amplification product.
  • the indicators that differ from template to template may be conventional indicators that are typically used for next generation sequencing.
  • the primer pair may be a primer pair in the form of a base sequence suitable for next-generation sequencing analysis.
  • a library for NGS was prepared using primer pairs containing base sequences suitable for next generation sequencing (FIG. 2).
  • the second step provides for determining, via NGS, the sequence of each genomic fragment constituting the library.
  • dielectric fragment and "NGS" are the same as described above.
  • the sequence of the genome fragments can be analyzed using a sequencing device used for next-generation sequencing, and the sequencing device can be used without limitation as long as it is a device commonly used for next-generation sequencing.
  • the library may be in the form of adding the base sequence suitable for the next generation sequencing through step (c), it is easy for the next generation sequencing.
  • the third step is to sort the amplification products prepared in step (c) based on n landmarks on the standard genomic sequence, thereby providing a step of grouping the amplification products into n.
  • the third step is to align the amplification products prepared in step (c) comprising the genomic DNA isolated from the individual on the standard genomic sequence, the alignment of the amplification products based on one or more landmarks It can be grouped by the number of landmarks by sorting.
  • standard genomic sequence refers to a general or average genomic sequence of a particular individual, and refers to a base sequence of a genome upon which various kinds of genetic factors of individual genomic sequences are compared.
  • the standard genomic sequence uses a nucleotide sequence of the same individual as the genomic fragment to be measured for mutation incidence, and the landmark between the standard genomic sequence and the genomic fragment is the same to facilitate the measurement of mutation incidence by landmark.
  • the fourth step includes subgrouping the amplification products constituting the group by random sequences, selecting one genome fragment for each subgroup, and selecting m i fragments for each group, wherein m i is the i th The number of selected dielectric pieces in a landmark.
  • the fourth step subgroups the amplification products for each random sequence in each group grouped in the third step, selects one dielectric fragment for each subgroup, and selects m i dielectric fragments for each group. Can be screened.
  • a genome fragment having the same sequence as the matched nucleotide sequence of the subgrouped amplification products can be selected, and one genome fragment is selected from the same random sequence.
  • the selected dielectric piece can be considered to be valid.
  • the fifth step is to compare the inter-base sequence of the m i of the dielectric pieces, providing a step of mutation is determined by the excluded one representative nucleotide sequence for each group, the sixth step is n groups of m i of the dielectric
  • M total number of mutations
  • a sequence of m i genome fragments belonging to the same landmark and distinguished by different random sequences may be arranged to determine a representative base sequence without mutation, and the sequences of the representative base sequence and the genome fragment may be compared. have.
  • the sequences of the representative base sequence and the genome fragment may be compared. have.
  • there are 10 or more genome fragments with different random sequences arranged on the same landmark if there is one genome fragment having different bases, it is classified as a mutation, and when it is 2 or more, it is classified as polymorphism. The number can be determined.
  • the seventh step provides a step of calculating the mutation incidence (AMR) using Equation 1 below.
  • AMR refers to an accumulated mutation rate
  • M is the total number of mutations
  • m i is the number of genomic fragments selected from the i-th landmark
  • l i is the genomic fragment of the i-th landmark. Refers to the number of bases determined and analyzed in the sequence.
  • the total number of mutations is determined from the 28 samples of the human leukocyte cells through the first to sixth steps, and the mutation incidence rate is calculated using Equation 1, wherein 28 Samples showed 0.2-2.1 mutations per 100,000 bases, with an average of 0.9 mutations occurring (FIG. 6).
  • genomic DNA per sample was digested at 37 ° C. for 2 hours using DpnII restriction enzyme, purified by PCR purification kit, and then dissolved in 30 ⁇ l buffer.
  • 50 ng of each genomic DNA digested and a random sequence comprising SEQ ID NO: 1 (5'-3 ': GAGCAGGTGACTCTGGCTTCCTACACGACGCTCTTCCGATCTNNNNNCACCCACACTTGACC,) and complementarily bind to 3' of SEQ ID NO: 1 to form an overhang capable of binding to the DpnII cleavage site Adapter 16pmole, a complementary conjugate to SEQ ID NO: 2 (5'-3 ': AATTGGTCAAGTGTGGGTG), was mixed with an aqueous solution containing 400 U of DNA ligase (Solgent) and 1x buffer and reacted at room temperature for 1 hour.
  • Solgent DNA ligase
  • the adapter was attached to the cleavage site by restriction enzyme, and then purified by PCR purification kit, and dissolved in 30 ⁇ l buffer. 1 ⁇ l, 2 ⁇ l, and 4 ⁇ l, respectively, of the adapter-attached DNA were used as a template for the PCR reaction, and then bound to the 5 ′ site based on the L1_C primer and the adapter of SEQ ID NO: 3, which bind to the 3 ′ region of L1HS. PCR using the A_C primers of SEQ ID NO: 4 under the conditions of Table 1 below. At this time, the extension reaction of the 3 'site at 68 ° C.
  • DNA polymerase DNA polymerase
  • the sequence library for NGS was constructed by attaching the nucleotide sequence (FIG. 2).
  • FOG. 2 the nucleotide sequence
  • primers having different indexes of NGS_F primers were used for each library.
  • the primers are shown in Table 3.
  • the sequence of the amplification products of the library constructed in Example 1 was determined using a sequencing device (HiSeq2000, Illumina). Among the amplification products, there were no unclear sequencing sequences, and the amplification products attached to the nucleotide sequences necessary for NGS were selected, these were listed in the standard genomic sequence, and grouped in the L1HS landmarks.
  • Random sequences which are the molecular indexes of the amplification products arranged in each landmark, were extracted and subgrouped by the templates from which they were derived. Subsequently, the matched base sequences of the subgrouped dielectric fragments were determined, and the dielectric fragments having the base sequences were selected. In this case, when five or more amplification products exist in one random sequence, the consensus nucleotide sequence was considered valid.
  • the amplification products based on the DNA of the F28 sample were 43,559 in total, 6122 random sequences, and the amplification products grouped in the landmark of the 27th L1HS among the amplification products ( CL_27) was arranged on 535 bp + strands ranging from 14584433 to 14584967 of chromosome 1, and was separated by -17 bp from L1HS of 2222 bp.
  • the first random sequence of 0 to 20 of the random sequence is composed of the 'CAAAAAG' sequence, 20 amplification products subgrouped by the random sequence (Read_0 to Read_19), the second random sequence of 1 is Consisting of the 'TGAGAAT' sequence, it was confirmed that the amplification products subgrouped into the random sequence 19 (Read_0 to Read 18) (Fig. 4).
  • nucleotide sequences of genome fragments belonging to the same landmark and defined by different random sequences were arranged with each other to determine a representative nucleotide sequence without mutation.
  • the nucleotide sequences of the selected genome fragments were compared. Specifically, when there are 10 or more genome fragments with different random sequences arranged on the same landmark, when there is one genome fragment having different bases, it is classified as a mutation, and when it is 2 or more, it is classified as polymorphism. It was.
  • the amplification products (CL_1484) grouped in the landmark of the 1484th L1HS as an example are arranged in -115 bp-strands ranging from 49814618 to 49814732 of chromosome 11, thereby subgrouping the genomes of the amplification products. Mutations occurred in specific genomic fragments of the fragments, specifically confirmed that the location of the specific base where the mutation occurred. Furthermore, it was confirmed that mutations occurred in 6 bases out of 558,026 bases of a total of 8,905 amplification products (FIG. 5).
  • AMR is the accumulated mutation rate; M is the total number of mutations; m i is the number of genomic fragments selected from the ith landmark; l i is the sequence of genome fragments captured from the i landmark. The number of bases added
  • Genomic DNA used in Example 1 was digested with AvaII restriction enzyme at 37 ° C. for 2 hours, and purified in the same manner as in Example 1 to dissolve in buffer.
  • Complementary binding site of the adapter includes one mismatched base pair and a phosphate group bound to the 5 'end to attach to the capture DNA by the Ligation reaction, and the base sequence and sequence of SEQ ID NO: 1 to form a cleavage site of AvaII restriction enzyme No. 9 (5'-3 ': GTCGGTCAAGTGTGGGTG) was attached to the digested genomic DNA using the same conditions and procedures as in Example 1 using a complementary binding adapter and purified and dissolved in buffer ( Figure 7).
  • the DNA attached with the adapter was prepared under the same conditions and procedures as in Example 1 for PCR amplification and a library for NGS.
  • the prepared library was subjected to sequencing and sequencing by the same process and procedure as in Example 2, and the sequencing of the mismatched regions of the nucleotide sequences 1 and 2 of the adapter was arranged by listing nucleotide sequences having the same random sequence for each landmark. The confirmation confirmed the complementary relationship of the double helix.

Abstract

본 발명은 차세대 염기서열 분석(Next Generation Sequencing; NGS)을 위한 라이브러리를 제조하는 단계를 포함하는 돌연변이 발생률의 측정 방법에 관한 것으로서, 약물, 방사선, 유전자 구성, 노화 및 개체가 겪는 각종 스트레스 등이 대상 시료의 돌연변이 발생에 미치는 효과를 측정할 수 있어 독성실험, 의학적 시험 및 건강의 유지관리 등과 관련된 시험, 진단, 관리 및 평가에 유용하게 사용될 수 있다.

Description

돌연변이 발생률의 측정 방법
본 발명은 차세대 염기서열 분석(Next Generation Sequencing; NGS)을 위한 라이브러리를 제조하는 단계를 포함하는 돌연변이 발생률의 측정 방법에 관한 것이다.
돌연변이는 질병의 예측 분야 등 다양한 생명 과학분야에서 가장 주목받는 부분 중 하나이다. 특히, 전 세계적으로 급격한 고령화 사회로 진행되면서 건강에 대한 관심이 높아지는 추세이다. 따라서 삶의 질의 향상을 위한 질병의 예측 가능성을 높이기 위해 돌연변이의 발생률의 측정에 대한 연구가 활발히 이루어지고 있다.
한편, 돌연변이를 검출하기 위한 하나의 기술로서 한국공개특허 제2015-0143025호는 PNA(peptide nucleic acid)를 사용하여 필라그린 유전자의 돌연변이를 검출할 수 있음을 개시하고 있다. 또한, 표피성장인자수용체(EGFR)의 돌연변이를 검출하는데 PNA를 이용한 연구가 지속적으로 보고되고 있다(Tuberc Respir Dis 2010;69:271-278).
다만, PNA는 자연적으로 생성될 수 없고 합성으로만 제조될 수 있어 비용이 매우 비싸고 대규모 돌연변이 발생률의 측정에 사용되기 어려운 제한이 있다. 또한, PNA를 이용한 돌연변이 검출방법은 특정 유전자의 돌연변이만을 검출할 수 있을 뿐, 무작위적으로 발생한 돌연변이의 검출에 한계가 있다. 따라서, 돌연변이의 발생률의 측정을 위한 다양한 연구가 여전히 요구되는 실정이다.
이에, 본 발명자들은 대규모 돌연변이의 발생률의 측정이 가능함과 동시에 정확도가 뛰어난 돌연변이 발생률의 측정 방법을 개발하기 위해 예의 노력한 결과, 랜덤서열과 어댑터를 도입한 표적 유전자를 증폭하여 염기서열을 분석하는 단계를 포함하는, 정확도가 향상되고 무작위적으로 발생한 돌연변이의 발생률을 광범위하게 측정할 수 있는 돌연변이 발생률의 측정 방법을 개발하여 본 발명을 완성하였다.
또한, 본 발명은 적용하는 유전물질을 달리함으로서 그 안에 포함된 변이형들을 측정할 수 있으며 발명의 특성에 의해 실험과정에서 유입되는 각종 노이즈에 의한 왜곡이 제거되기 때문에 보다 정확한 측정값을 제공할 수 있다. 예를 들어 미토콘드리아 DNA에서 헤테로플라스미(heteroplasmy)의 내용과 정도를 측정하거나 미생물 유전체로부터 미생물의 생태구조를 측정하는데 응용될 수 있다.
본 발명의 주된 목적은 (1) 하기 (a) 단계 내지 (c) 단계를 포함하는 차세대 염기서열 분석(Next Generation Sequencing; NGS)을 위한 라이브러리를 제조하는 제1단계: (a) 개체로부터 추출된, 랜드마크를 갖는 게놈 DNA를 각각 제한효소로 절단하고, 각 절단된 게놈 DNA의 양 말단에 서로 다른 랜덤서열을 포함하는 어댑터를 연결시켜 DNA-어댑터 연결체를 제조하는 단계; (b) 상기 (a) 단계에서 제조된 DNA-어댑터 연결체를 주형으로 하고, 상기 주형에서 랜드마크의 5' 말단에 결합하는 제1프라이머, 및 어댑터의 3' 말단에 결합하는 제2프라이머를 이용하여 PCR을 수행하여 증폭산물을 수득하는 단계; 및 (c) 상기 (b) 단계에서 제조된 증폭산물을 주형으로 하고, 상기 주형의 양 말단에 결합하는 프라이머 쌍을 이용하여 PCR을 수행하는 단계; (2) 상기 라이브러리에 포함되는 각 유전체 조각들의 서열을 NGS를 통하여 결정하는 제2단계; (3) 표준 게놈 서열 상의 n개의 랜드마크를 기준으로, 상기 (c) 단계에서 제조된 증폭산물들을 정렬하여, 상기 증폭산물들을 n개로 그룹화하는 제3단계; (4) 그룹을 구성하는 증폭산물들을 랜덤서열 별로 서브그룹화한 후, 서브그룹 별로 1개의 유전체 조각을 선택하여, 그룹 별로 mi 개의 유전체 조각을 선별하는 제4단계(상기 mi는 i번째 랜드마크에서 선택된 유전체 조각의 수); (5) mi개의 유전체 조각들의 염기서열을 비교하여, 각 그룹 별로 돌연변이가 배제된 1개의 대표 염기서열을 결정하는 제5단계; (6) n개 그룹의 mi개의 유전체 조각들 중 그룹의 대표 염기서열과 상이한 염기서열을 가지는 경우를 돌연변이로 판단하여, 돌연변이의 총 개수(M)를 결정하는 제6단계; 및 (7) 하기 수학식 1을 이용하여 돌연변이 발생률(AMR)을 계산하는 제7단계를 포함하는 게놈의 돌연변이 발생률의 측정 방법을 제공하는 것이다.
본 발명은 분석 대상 시료로부터 선택적으로 포획된 유전체 조각을 주형이 구별되는 방식으로 증폭하고 각 주형별 염기서열을 비교하여 분석된 유전체 조각의 규모와 돌연변이의 발생률을 정확하게 측정할 수 있다. 이러한 방법을 통해 환경의 변화 즉, 약물, 방사선, 유전자 구성, 노화 및 개체가 겪는 각종 스트레스 등이 대상 시료의 돌연변이 발생에 미치는 효과를 측정할 수 있어 독성실험, 의학적 시험 및 건강의 유지관리 등과 관련된 시험, 진단, 관리 및 평가에 유용하게 사용될 수 있다.
도 1은 시료로부터 돌연변이의 발생률을 측정하기 위한 방법을 나타내는 모식도이다.
도 2는 랜덤서열과 어댑터를 포함하는 유전체 조각의 DNA 서열 라이브러리를 구축하는데 사용되는 주형, 및 프라이머의 종류를 나타낸 도이다.
도 3a는 유전체 조각을 증폭한 뒤 2% 아가로스 젤에 전기영동한 결과를 나타낸 사진이다.
도 3b는 유전체 조각의 DNA 서열 라이브러리를 2% 아가로스 젤에 전기영동한 결과를 나타낸 사진이다.
도 4는 NGS를 통해 얻은 염기서열에 대한 분석 결과를 나타낸 사진이다.
도 5는 유전체 조각의 염기서열 분석 결과 1개의 서로 다른 염기서열을 갖는 유전체 조각을 표시한 사진이다.
도 6은 28개 시료의 돌연변이 발생률을 측정한 결과를 나타낸 그래프이다.
상기의 목적을 달성하기 위하여, 본 발명의 하나의 양태는,
(1) 하기 (a) 단계 내지 (c) 단계를 포함하는 차세대 염기서열 분석(Next Generation Sequencing; NGS)을 위한 라이브러리를 제조하는 제1단계:
(a) 개체로부터 추출된, 랜드마크를 갖는 게놈 DNA를 각각 제한효소로 절단하고, 각 절단된 게놈 DNA의 양 말단에 서로 다른 랜덤서열을 포함하는 어댑터를 연결시켜 DNA-어댑터 연결체를 제조하는 단계;
(b) 상기 (a) 단계에서 제조된 DNA-어댑터 연결체를 주형으로 하고, 상기 주형에서 랜드마크의 3' 말단에 결합하는 제1프라이머, 및 어댑터의 5' 말단에 결합하는 제2프라이머를 이용하여 PCR을 수행하여 증폭산물을 수득하는 단계; 및
(c) 상기 (b) 단계에서 제조된 증폭산물을 주형으로 하고, 상기 주형의 양 말단에 결합하는 프라이머 쌍을 이용하여 PCR을 수행하는 단계;
(2) 상기 라이브러리에 포함되는 각 유전체 조각들의 서열을 NGS를 통하여 결정하는 제2단계;
(3) 표준 게놈 서열 상의 n개의 랜드마크를 기준으로, 상기 (c) 단계에서 제조된 증폭산물들을 정렬하여, 상기 증폭산물들을 n개로 그룹화하는 제3단계;
(4) 그룹을 구성하는 증폭산물들을 랜덤서열 별로 서브그룹화한 후, 서브그룹 별로 1개의 유전체 조각을 선택하여, 그룹 별로 mi 개의 유전체 조각을 선별하는 제4단계(상기 mi는 i번째 랜드마크에서 선택된 유전체 조각의 수);
(5) mi개의 유전체 조각들의 염기서열을 비교하여, 각 그룹 별로 돌연변이가 배제된 1개의 대표 염기서열을 결정하는 제5단계;
(6) n개 그룹의 mi개의 유전체 조각들 중 각 그룹의 대표 염기서열과 상이한 염기서열을 가지는 경우를 돌연변이로 판단하여, 돌연변이의 총 개수(M)를 결정하는 제6단계; 및
(7) 하기 수학식 1을 이용하여 돌연변이 발생률(AMR)을 계산하는 제7단계를 포함하는 게놈의 돌연변이 발생률의 측정방법을 제공한다.
[수학식 1]
Figure PCTKR2017005952-appb-I000001
(AMR은 돌연변이 발생률(accumulated mutation rate); M은 돌연변이의 총 개수; mi 는 i번째 랜드마크에서 선택된 유전체 조각의 수; li는 i번째 랜드마크의 유전체 조각 중에서 서열이 결정되어 분석된 염기의 수를 의미)
제1단계는 (a) 단계 내지 (c) 단계를 포함하는 차세대 염기서열 분석(Next Generation Sequencing; NGS)을 위한 라이브러리를 제조하는 단계를 제공한다.
본 발명에서 용어, "차세대 염기서열 분석(Next Generation Sequencing; NGS)"은 유전체의 염기서열에 대한 고속 분석 방법을 말하며, High-throughput sequencing, Massive parallel sequencing 또는 Second generation sequencing과 혼용되어 사용될 수 있다.
본 발명에서 용어, "라이브러리"는 제한효소 등으로 절단하여 얻은 유전자의 단편들의 집합을 말하며, 유전자의 단편을 벡터에 도입한 집합일 수 있으나, 이에 제한되는 것은 아니다. 구체적으로 본 발명에서 상기 라이브러리는 하기 (a) 내지 (c) 단계를 통해 제조할 수 있으며, 상기 라이브러리는 돌연변이 발생률의 측정에 사용될 수 있다.
상기 (a) 단계는 개체로부터 추출된, 랜드마크를 갖는 게놈 DNA를 각각 제한효소로 절단하고, 각 절단된 게놈 DNA의 양 말단에 서로 다른 랜덤서열을 포함하는 어댑터를 연결시켜 DNA-어댑터 연결체를 제조하는 단계를 제공한다.
본 발명에서 용어, "개체"는 돌연변이 발생률의 측정이 필요한 인간을 포함한 모든 동물을 의미할 수 있다
상기 게놈 DNA를 개체로부터 추출하는 방법은 당업계에서 사용되는 방법을 제한없이 사용할 수 있다.
본 발명에서 용어, "랜드마크"는 게놈 DNA상의 다른 염기서열과의 구별을 위한 특정 염기서열을 말한다. 일 예로, 게놈 DNA 내에서 반복되어 나타나는 특정 염기서열일 수 있으며, 구체적으로 LINE(long interspersed nuclear element) 또는 SINE(short interspersed nuclear element) 계열의 반복 염기서열이나 특정 제한효소 인식부위와 같이 유전체 내에 반복되어 나타나는 염기서열일 수 있으나, 이에 제한되는 것은 아니며, 다른 염기서열과 구별하여 특정 부위의 돌연변이 발생률의 측정이 가능한 염기서열이면 제한없이 가능하다.
본 발명의 일 실시예에서는, 돌연변이 발생률의 측정을 위한 랜드마크로서 LINE 계열 반복서열인 L1HS 염기서열을 사용하였다.
본 발명에서 용어, "어댑터"는 랜드마크의 전체 또는 일부와 제한효소 절단부위의 염기서열을 포함하는 증폭산물을 수득하기 위해 사용되는 부분 이중나선 구조의 염기서열을 말하며, 제한효소로 절단된 게놈 DNA의 양 말단에 결합할 수 있다. 구체적으로, 상기 어댑터는 랜덤서열을 포함할 수 있다.
상기 어댑터의 일 말단은 제한효소로 절단되는 게놈 DNA 부위와 상보적으로 결합하는 서열을 포함할 수 있다.
또한, 상기 어댑터는 돌연변이 발생률을 측정하기 위한 증폭산물의 제조단계에서, PCR 수행시 프라이머의 부착이 가능한 염기서열을 포함할 수 있다.
본 발명의 일 실시예에서는, DpnⅡ 제한효소를 사용하여 인간 백혈구 세포의 유전체 DNA를 절단하였고, 상기 제한효소의 절단부위에 결합할 수 있는, 랜덤서열을 포함하는 DpnⅡ 어댑터를 절단된 게놈 DNA에 부착시켰다.
한편, 본 발명의 상기 어댑터는, 상기 랜드마크 DNA의 상보적 가닥을 모두 포획하기 위해, 5' 위치에 인산기가 결합된 것일 수 있다. 또한, 상기 상보적 DNA 가닥을 구별하기 위해, 어댑터의 상보적 결합 부위에 미스매치 뉴클레오티드 (mismatch nucleotide)를 1 개 이상 포함할 수 있다.
즉, 상기 랜드마크 DNA의 한쪽 가닥만 포획될 경우, 라이브러리 구축 단계 등의 반응에서 발생하는 화학 변이에 의한 위양성 (false positive)를 구별하기 어려우나, 이러한 화학 변이는 DNA의 상보적 가닥의 동일 위치에서 동시에 발생하기는 어려우므로, 랜드마크 DNA의 양쪽 가닥을 모두 포획할 수 있는 어댑터를 사용함으로써, 화학 변이로 인한 노이즈를 제거하고, 돌연변이 발생률을 보다 정확하게 측정할 수 있다.
또한, 어댑터간의 결합을 방지하기 위해 non-palindrom overhang을 생성하는 제한효소를 사용할 수 있다. 상기 제한효소는 BstNI, 또는 AvaII 제한효소일 수 있으나, 이에 제한되는 것은 아니다
본 발명에서 용어, "랜덤서열"은 개체로부터 추출된 게놈 DNA의 기원을 구별하기 위해 사용되는 임의의 5 내지 11개의 뉴클레오티드를 말하며, 특정 염기서열을 포함할 수 있다. 상기 랜덤서열은 제한효소로 절단된 게놈 DNA의 양 말단에 결합할 수 있으며, 게놈 DNA의 기원마다 상이한 염기서열을 나타내 증폭산물로부터 돌연변이 발생률의 측정 시, 게놈 DNA의 기원별로 돌연변이의 발생률을 측정하는데 용이하다. 상기 랜덤서열은 상기 어댑터의 부분 이중나선 구조 중 단일 가닥에 위치할 수 있으나, 이에 제한되는 것은 아니다.
본 발명의 일 실시예에서는, 임의의 7개의 뉴클레오티드를 랜덤서열로 사용하였다.
본 발명에서 용어, "DNA-어댑터 연결체"는 상기 제한효소로 절단된 게놈 DNA와 어댑터가 연결된 구조체를 말하며, 돌연변이 발생률을 측정하기 위한 증폭의 주형으로 사용된다. 구체적으로, 상기 연결체는 랜덤서열을 포함할 수 있으며, 예를 들어 상기 랜덤서열은 게놈 DNA와 어댑터의 사이에 위치할 수 있다.
상기 (b) 단계는 상기 (a) 단계에서 제조된 DNA-어댑터 연결체를 주형으로 하고, 상기 주형에서 랜드마크의 3' 말단에 결합하는 제1프라이머, 및 어댑터의 5' 말단에 결합하는 제2프라이머를 이용하여 PCR을 수행하여 증폭산물을 수득하는 단계(b-1)를 제공한다.
상기 제1프라이머는 랜드마크의 3'말단에 결합하는 프라이머이고, 상기 제2프라이머는 어댑터의 5' 말단에 결합하는 프라이머로서, 상기 프라이머들을 사용하여 PCR을 수행시 랜드마크의 3' 부위의 염기서열을 포획하는 역할을 한다
본 발명에서 용어, "증폭산물"은 제1프라이머, 및 제2프라이머를 이용하여 수행한 PCR의 결과물을 말하며, 랜드마크, 랜덤서열, 유전체 조각, 및 어댑터를 포함할 수 있다. 구체적으로, 상기 증폭산물은 랜드마크의 전체 또는 일부 서열을 포함하고, 어댑터의 전체 또는 일부 서열을 포함할 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서 용어, "유전체 조각"은 돌연변이 발생률의 측정 대상인 게놈 DNA를 포함하는 유전체로서, 다른 게놈 DNA와의 구별을 위해 랜드마크, 및 랜덤서열에 결합할 수 있다. 구체적으로, 상기 유전체 조각은 1 이상의 염기를 포함할 수 있으며, 상기 (a) 단계에서 제한효소에 의한 게놈 DNA의 절단 부위를 전부 또는 일부 포함할 수 있다.
본 발명의 일 실시예에서는, 제한효소에 의해 절단된 게놈 DNA와 랜덤서열 및 어댑터를 포함하는 DNA-어댑터 연결체를 주형으로 하고, 상기 주형에 포함된 L1HS 랜드마크의 3' 말단에 결합하는 제1프라이머와, 어댑터의 5'말단에 결합하는 제2프라이머를 사용하여 PCR을 수행하여 증폭산물을 수득하였다.
상기 단계 (b)는 상기 제조된 증폭산물을 주형으로 하고, 상기 랜드마크의 염기서열의 전부 또는 일부에 결합하는 정방향 프라이머와 랜덤서열을 제외한 어댑터의 전부 또는 일부에 결합하는 역방향 프라이머를 이용하여 nested PCR을 수행하는 단계(b-2)를 추가로 포함할 수 있다.
본 발명에서 용어, "nested PCR"은 1차 PCR 증폭 산물을 주형으로 이용하여 원하지 않는 증폭 산물을 제거하고, 원하는 증폭 산물만을 특이적으로 선별하기 위한 PCR을 말한다. 상기 nested PCR은 원하지 않는 증폭 산물을 제거할 수 있어, 본 발명에서 돌연변이 발생률의 측정시, 정확도를 향상시킬 수 있는 효과를 나타낼 수 있다.
상기 원하지 않는 증폭산물을 제거하기 위한 nested PCR을 수행하기 위하여, 유전체 조각을 포획하는 랜드마크와 어댑터에 각각 결합하는 프라이머들을 사용할 수 있으며, 구체적으로, 상기 프라이머들 중 어느 하나는 랜드마크의 염기서열의 전부 또는 일부에 결합할 수 있고, 상기 프라이머들 중 다른 하나는 어댑터의 염기서열의 전부 또는 일부에 결합할 수 있다.
또한, 상기 프라이머들은 차세대 염기서열 분석에 적합한 염기서열이 추가된 형태의 프라이머들일 수 있으나, 이에 제한되는 것은 아니다.
상기 (c) 단계는 상기 (b) 단계에서 제조된 증폭산물을 주형으로 하고, 상기 주형의 양 말단에 결합하는 프라이머 쌍을 이용하여 PCR을 수행하는 단계를 제공한다.
상기 (c) 단계의 프라이머 쌍은 상기 (b) 단계에서 제조된 증폭산물의 양 말단에 결합할 수 있다. 상기 프라이머 쌍은 제1프라이머 및 주형마다 상이한 지표를 포함하는 제2프라이머로 이루어져 있어, 상기 증폭산물의 라이브러리를 구별하는데 용이하다. 구체적으로, 상기 주형마다 상이한 지표는 일반적으로 차세대 염기서열 분석에 사용되는 통상적인 지표일 수 있다. 또한, 상기 프라이머 쌍은 차세대 염기서열 분석에 적합한 염기서열이 추가된 형태의 프라이머 쌍일 수 있다.
본 발명의 일 실시예에서는, 차세대 염기서열 분석에 적합한 염기서열을 포함하는 프라이머 쌍을 사용하여 NGS용 라이브러리를 제조하였다(도 2).
제2단계는 상기 라이브러리를 구성하는 각 유전체 조각들의 서열을 NGS를 통하여 결정하는 단계를 제공한다.
본 발명에서 용어, "유전체 조각", 및 "NGS"는 상기에서 설명한 바와 동일하다.
상기 유전체 조각들의 서열은 차세대 염기서열 분석에 사용되는 염기서열 분석 장치를 사용하여 분석할 수 있으며, 상기 염기서열 분석 장치는 차세대 염기서열 분석에 통상적으로 사용하는 장치라면 제한없이 사용이 가능하다.
상기 라이브러리는 상기 (c) 단계를 통해 차세대 염기서열 분석에 적합한 염기서열이 추가된 형태일 수 있어, 차세대 염기서열 분석에 용이하다.
제3단계는 표준 게놈 서열 상의 n개의 랜드마크를 기준으로, 상기 (c) 단계에서 제조된 증폭산물들을 정렬하여, 상기 증폭산물들을 n개로 그룹화하는 단계를 제공한다.
구체적으로, 상기 제3단계는 개체에서 분리된 게놈 DNA를 포함하는 상기 (c) 단계에서 제조된 증폭산물들을 표준 게놈 서열 상에 정렬하는 단계로서, 증폭산물들의 정렬은 1개 이상의 랜드마크를 기준으로 정렬하여 랜드마크의 개수만큼 그룹화할 수 있다.
본 발명에서 용어, "표준 게놈 서열"이란 특정 개체의 일반적이거나 평균적인 게놈 서열로서, 개별 게놈 서열의 여러 종류의 유전인자 등을 비교할 때 그 기준이 되는 게놈의 염기서열을 말한다. 본 발명에서 상기 표준 게놈 서열은 돌연변이 발생률의 측정 대상인 유전체 조각과 동일한 개체의 염기서열을 사용하며, 상기 표준 게놈 서열과 유전체 조각간의 랜드마크가 동일하여 랜드마크별 돌연변이 발생률의 측정에 용이하다.
제4단계는 그룹을 구성하는 증폭산물들을 랜덤서열 별로 서브그룹화 한 후, 서브그룹별로 1개의 유전체 조각을 선택하여, 그룹 별로 mi개의 조각을 선별하는 단계를 제공하며, 상기 mi는 i번째 랜드마크에서 선택된 유전체 조각의 수를 의미한다.
구체적으로, 상기 제4단계는 상기 제3단계에서 그룹화한 각각의 그룹 내에서 랜덤서열 별로 증폭산물들을 서브그룹화하여, 서브그룹별로 1개의 유전체 조각을 선택하여, 각 그룹별로 mi 개의 유전체 조각을 선별할 수 있다.
서브그룹별로 1개의 유전체 조각을 선택하는 경우, 각 랜덤서열 별로, 서브그룹화된 증폭산물들의 합치된 염기서열과 동일한 서열을 갖는 유전체 조각을 선택할 수 있으며, 동일한 랜덤서열에서 하나의 유전체 조각이 5개 이상의 증폭산물들로부터 지지될 때, 상기 선택된 유전체 조각이 유효한 것으로 간주할 수 있다.
제5단계는 상기 mi개의 유전체 조각들의 상호간 염기서열을 비교하여, 각 그룹 별로 돌연변이가 배제된 1개의 대표 염기서열을 결정하는 단계를 제공하고, 제6단계는 n개 그룹의 mi개의 유전체 조각들 중 각 그룹의 대표 염기서열과 상이한 염기서열을 가지는 경우를 돌연변이로 판단하여, 돌연변이의 총 개수(M)를 결정하는 단계를 제공한다.
구체적으로, 동일한 랜드마크에 속하면서 서로 다른 랜덤서열에 의해 구별된 mi개의 유전체 조각들의 염기서열을 배열하여 돌연변이가 배제된 대표 염기서열을 결정하고, 상기 대표 염기서열과 유전체 조각의 서열을 비교할 수 있다. 동일한 랜드마크에 배열된 서로 다른 랜덤서열을 가진 유전체 조각이 10개 이상일 때, 서로 다른 염기를 갖는 유전체 조각이 1개 존재하는 경우 이를 돌연변이로 분류하고, 2개 이상일 경우 다형성으로 분류하여 돌연변이의 총 개수를 결정할 수 있다.
제7단계는 하기 수학식 1을 이용하여 돌연변이 발생률(AMR)을 계산하는 단계를 제공한다.
[수학식 1]
Figure PCTKR2017005952-appb-I000002
상기 화학식 1에서, AMR은 돌연변이 발생률(accumulated mutation rate)을 의미하고, M은 돌연변이의 총 개수, mi 는 i번째 랜드마크에서 선택된 유전체 조각의 수, 및 li는 i번째 랜드마크의 유전체 조각 중에서 서열이 결정되어 분석된 염기의 수를 의미한다.
본 발명의 일 실시예에서는, 인간 백혈구 세포의 28개 샘플로부터 상기 제1단계 내지 제6단계를 통해 돌연변이의 총 개수를 결정하고, 상기 수학식 1을 이용하여 돌연변이 발생률을 계산한 결과, 상기 28개의 샘플에서 10만개의 염기당 0.2 내지 2.1개의 돌연변이가 나타나며, 평균적으로 0.9개의 돌연변이가 발생하는 것을 확인하였다(도 6).
이하, 실시예를 통하여 본 발명의 구성 및 효과를 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 예시하기 위한 것일 뿐, 본 발명의 범위가 이들 실시예에 의해 한정되는 것은 아니다.
실시예 1: 유전체 조각의 DNA 서열 라이브러리 구축
한국한의학연구원 KDC에 기탁된 인간 백혈구 세포의 게놈 DNA 28개의 시료를 분양받아 도 1과 같은 방법으로 유전체 조각의 DNA 서열 라이브러리를 구축하였다.
구체적으로, 시료별 200ng의 게놈 DNA를 DpnII 제한효소를 사용하여 37℃에서 2시간동안 절단한 뒤 PCR 정제 키트(PCR purification kit)로 정제한 후 30μl 완충액(elution buffer)에 용해시켰다. 절단된 각 게놈 DNA 50ng과 랜덤서열을 포함하는 서열번호 1(5'-3': GAGCAGGTGACTCTGGCTTCCTACACGACGCTCTTCCGATCTNNNNNNNCACCCACACTTGACC,)과 서열번호 1의 3'쪽에 상보적으로 결합하여 DpnII 절단부위와 결합할 수 있는 overhang을 형성하는 서열번호 2(5'-3': AATTGGTCAAGTGTGGGTG)와의 상보적 결합체인 어댑터(adaptor) 16pmole을 DNA ligase(Solgent) 400U와 1x 버퍼가 포함된 수용액에 혼합하여 1시간동안 실온에서 반응시켰다. 상기 반응을 통해 제한효소에 의한 절단부위에 상기 어댑터를 부착시킨 후 PCR 정제 키트로 정제하여 30μl 완충액에 용해시켰다. 어댑터가 부착된 상기 DNA를 PCR반응의 주형으로 사용하기 위해 각각 1μl, 2μl, 및 4μl씩 취한 뒤, L1HS의 3´부위에 결합하는 서열번호 3의 L1_C 프라이머와 어댑터를 기준으로 5' 부위에 결합하는 서열번호 4의 A_C 프라이머를 사용하여 하기 표 1의 조건으로 PCR 반응을 수행하였다. 이때 68℃, 10분간 3' 부위의 연장반응은 어댑터의 단일가닥 부위를 채우기 위한 단계로서, 이어지는 PCR 반응에서 두 가닥 모두 증폭 반응의 주형으로 사용되도록 하기 위함이며, 다른 DNA 중합효소 (DNA polymerase)를 사용하여 독립된 반응으로 시행할 수 있다.
한편, 상기 프라이머들은 표 2와 같다.
온도(℃) 시간 비고
68 10 분 3' 연장반응
95(denaturation) 20 초 20주기(cycle) 반복 수행
58(annealing) 20 초
68(extension) 2 분
68 8 분
프라이머 종류 염기서열(5'-3')
L1_C 프라이머 GGGAGATATACCTAATGCTAGATGACAC (서열번호 3)
A_C 프라이머 GAGCAGGTGACTCTGGCTT (서열번호 4)
상기 PCR 반응 결과로 얻어진 유전체 조각의 증폭산물을 이어지는 nested PCR의 주형으로 사용하기 위해 1μl를 취하고, 증폭산물의 5' 말단에 결합하는 서열번호 5의 L1_N 프라이머와 3' 말단에 결합하는 서열번호 6의 A_N 프라이머를 사용하여 상기 표 1과 동일한 조건으로 nested PCR을 수행하였다. 상기 nested PCR 결과로 얻어진 증폭산물 0.1 μl를 취하여 서열번호 7의 NGS_F 프라이머와 서열번호 8의 NGS_R 프라이머를 사용하여 상기 표 1과 동일한 조건으로 상기 증폭산물의 양 말단에 NGS(next generation sequencing)에 필요한 염기서열을 부착함으로서 NGS 용 서열 라이브러리를 구축하였다(도 2). 이때, 증폭산물의 라이브러리를 구별하기 위해 각 라이브러리 별로 NGS_F 프라이머의 지표(index)가 서로 다른 프라이머를 사용하였다. 한편, 상기 프라이머들은 표 3과 같다.
상기 증폭산물과 구축된 라이브러리를 2% 아가로스 젤에서 전기영동하여 확인한 결과, 유사한 패턴을 나타냄을 확인하여, 상기 방법을 통해 정상적으로 돌연변이 발생률을 측정하기 위한 라이브러리의 구축이 가능함을 확인하였다(도 3a, 및 3b).
프라이머 종류 염기서열(5'-3')
L1_N 프라이머 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTGCACATGTACCCTAAAACTTAG(서열번호 5)
A_N 프라이머 CTACACGACGCTCTTCCGAT(서열번호 6)
NGS_F 프라이머 CAAGCAGAAGACGGCATACGAGATCGTGATGTGACTGGAGTTCAGACGTGTG(서열번호 7)
NGS_R 프라이머 AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT(서열번호 8)
실시예 2: NGS 데이터의 분석을 통한 돌연변이 발생률의 측정
염기서열 분석 장치(HiSeq2000, 일루미나)를 사용하여 상기 실시예 1에서 구축한 라이브러리의 증폭산물들의 염기서열을 결정하였다. 상기 증폭산물들 중에서 불분명한 염기서열이 존재하지 않고, NGS에 필요한 염기서열이 부착된 증폭산물들을 선별한 후 이들을 표준 게놈 서열에 나열하고, L1HS 랜드마크에 각각 배열하여 그룹화하였다.
각 랜드마크에 배열된 증폭산물들의 분자 지표(molecular index)가 되는 랜덤서열을 추출하여 이들이 유래한 주형별로 서브그룹화하였다. 그 후, 서브그룹화된 유전체 조각들의 기원되는 합치된 염기서열을 결정하고, 상기 염기서열을 갖는 유전체 조각을 선택하였다. 이때 하나의 랜덤서열에 5개 이상의 증폭산물들이 존재할 때 합치된 염기서열이 유효한 것으로 간주하였다.
서브그룹화한 결과, 하나의 예로서 F28 시료의 DNA를 주형으로 한 증폭산물들은 총 43,559개이고, 6122개의 랜덤서열을 갖고 있으며, 상기 증폭산물들 중 27번째 L1HS의 랜드마크에 그룹화된 증폭산물들(CL_27)은 1번 염색체의 14584433부터 14584967에 이르는 535bp 크기의 + 가닥에 배열되고, 2222bp 크기의 L1HS와 -17bp 만큼 떨어져 있음을 확인하였다. 한편, 0 내지 20개의 랜덤서열 중 0으로 표시된 첫번째 랜덤서열은 'CAAAAAG' 서열로 이루어져 있으며, 상기 랜덤서열로 서브그룹화된 증폭산물들은 20개(Read_0 내지 Read_19)이고, 1로 표시된 두번째 랜덤서열은 'TGAGAAT" 서열로 이루어져 있으며, 상기 랜덤서열로 서브그룹화된 증폭산물들은 19개(Read_0 내지 Read 18)임을 확인하였다(도 4).
한편, 동일한 랜드마크에 속하면서 서로 다른 랜덤서열에 의해 정의된 유전체 조각들의 염기서열을 서로 배열하여 돌연변이가 배제된 대표 염기서열을 결정한 후, 이를 상기 선택된 유전체 조각의 염기서열과 비교하였다. 구체적으로, 동일한 랜드마크에 배열된 서로 다른 랜덤서열을 가진 유전체 조각이 10개 이상일 때, 서로 다른 염기를 가진 1개의 유전체 조각이 존재하는 경우 이를 돌연변이로 분류하였으며, 2개 이상일 경우엔 다형성으로 분류하였다. 그 결과, 하나의 예로서 1,484번째 L1HS의 랜드마크에 그룹화된 증폭산물들(CL_1484)은 11번 염색체의 49814618부터 49814732에 이르는 115bp 크기의 - 가닥에 배열되는 것으로서, 상기 증폭산물들의 서브그룹화된 유전체 조각들 중 특정 유전체 조각에서 돌연변이의 발생하였고, 구체적으로 돌연변이가 발생한 특정 염기의 위치를 파악할 수 있음을 확인하였다. 나아가, 총 8,905개의 증폭산물들의 558,026개의 염기 중에서 6개의 염기에서 돌연변이가 발생하였음을 확인하였다(도 5).
한편 상기 1,484번째 L1HS의 랜드마크에 그룹화된 증폭산물들의 구체적인 분석 결과로서, 24개의 랜덤서열에 의해 구별된 유전체 조각의 염기서열 중 15개가 대표 염기서열과 일치함을 확인(Con_15/24)하였고, 6개의 증폭산물로 구성된 8번째 랜덤서열에서 돌연변이가 발생하였음을 확인(Mut_8_(6))하였으며, 나머지는 증폭산물의 수가 5개에 미치지 못하였거나, 증폭산물 중 일부가 대표 염기서열과 일치하지 않아 분석에서 제외되었음을 확인하였다(도 5).
분석된 랜드마크 별로 서로 다른 랜덤서열을 갖는 유전체 조각의 수와 염기서열에 포함된 염기의 총 수 및 돌연변이 사건의 총 수를 산출하여 [수학식 1]을 사용하여 돌연변이 발생률을 계산하였다.
[수학식 1]
Figure PCTKR2017005952-appb-I000003
(AMR은 돌연변이 발생률(accumulated mutation rate); M은 돌연변이의 총 개수; mi 는 i번째 랜드마크에서 선택된 유전체 조각의 수; li는 i번째 랜드마크에서 포획된 유전체 조각 중에서 서열이 결정되어 분석된 염기의 수를 의미)
그 결과, 28개의 시료에서 10만개의 염기당 돌연변이 발생률이 0.2 내지 2.1개의 분포를 나타내고, 평균 0.9개의 돌연변이를 갖는 것을 확인하였다(도 6). 따라서, 본 발명의 돌연변이 발생률 측정 방법을 통해 분석된 DNA의 규모와 돌연변이의 수를 정확하게 파악할 수 있음을 확인하였다.
실시예 3: 변형된 어댑터 이용에 따른 돌연변이 발생률 측정의 정확성 향상 확인
실시예 1에서 사용했던 게놈 DNA를 AvaII 제한효소로 37℃에서 2시간동안 절단한 뒤 실시예 1과 동일하게 정제하여 완충액에 용해시켰다. 어댑터의 상보적 결합부위에 미스매치 염기쌍 1개가 포함되고 5' 말단에 인산기가 결합되어 있어 Ligation 반응에 의해 포획 DNA에 부착 가능하며 AvaII 제한효소의 절단부위가 형성되도록 서열번호 1의 염기서열과 서열번호 9(5'-3': GTCGGTCAAGTGTGGGTG)을 상보적 결합시킨 어댑터를 사용하여 실시예 1과 동일한 조건과 절차를 통해서 절단된 게놈 DNA에 부착시키고 정제하여 완충액에 용해시켰다 (도 7).
어댑터가 부착된 상기 DNA를 실시예 1과 동일한 조건과 절차를 통해 PCR 증폭 및 NGS용 library를 제작하였다. 제작된 library는 실시예 2와 동일한 과정과 절차를 통해 염기서열 결정 및 염기서열 분석을 실시하였으며, 각 랜드마크 별로 랜덤서열이 동일한 염기서열들을 나열하여 어댑터의 염기서열 1과 2의 미스매치 부위의 확인을 통해 이중 나선의 상보적 관계를 확인하였다.
따라서, 상기와 같이 변형된 어댑터를 이용하여, 서로 상보적 관계에 있는 포획 DNA의 염기서열이 서로 일치하는 변이만을 유효한 돌연변이로 선발함으로서, 실험과정에서 이중 나선의 한쪽 가닥에만 발생하는 각종 위변이들을 구별할 수 있고, 결과적으로 실험과정에서 발생하는 각종 노이즈에 의한 왜곡이 제거되어 보다 정확한 측정값을 제공할 수 있음을 확인하였다.
이상의 설명으로부터, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 이와 관련하여, 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허 청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (5)

  1. 하기 제1단계 내지 제7단계를 포함하는 게놈의 돌연변이 발생률의 측정 방법:
    (1) 하기 (a) 단계 내지 (c) 단계를 포함하는 차세대 염기서열 분석(Next Generation Sequencing; NGS)을 위한 라이브러리를 제조하는 제1단계:
    (a) 개체로부터 추출된, 랜드마크를 갖는 게놈 DNA를 각각 제한효소로 절단하고, 각 절단된 게놈 DNA의 양 말단에 서로 다른 랜덤서열을 포함하는 어댑터를 연결시켜 DNA-어댑터 연결체를 제조하는 단계;
    (b) 상기 (a) 단계에서 제조된 DNA-어댑터 연결체를 주형으로 하고, 상기 주형에서 랜드마크의 3' 말단에 결합하는 제1프라이머, 및 어댑터의 5' 말단에 결합하는 제2프라이머를 이용하여 PCR을 수행하여 증폭산물을 수득하는 단계; 및
    (c) 상기 (b) 단계에서 제조된 증폭산물을 주형으로 하고, 상기 주형의 양 말단에 결합하는 프라이머 쌍을 이용하여 PCR을 수행하는 단계;
    (2) 상기 라이브러리에 포함되는 각 유전체 조각들의 서열을 NGS를 통하여 결정하는 제2단계;
    (3) 표준 게놈 서열 상의 n개의 랜드마크를 기준으로, 상기 (c) 단계에서 제조된 증폭산물들을 정렬하여, 상기 증폭산물들을 n개로 그룹화하는 제3단계;
    (4) 그룹을 구성하는 증폭산물들을 랜덤서열 별로 서브그룹화한 후, mi개의 서브그룹 별로 1개의 유전체 조각을 선택하여, 그룹 별로 mi 개의 유전체 조각을 선별하는 제4단계(상기 mi는 i번째 랜드마크에서 선택된 유전체 조각의 수);
    (5) mi개의 유전체 조각들의 염기서열을 비교하여, 각 그룹 별로 돌연변이가 배제된 1개의 대표 염기서열을 결정하는 제5단계;
    (6) n개 그룹의 mi개의 유전체 조각들 중 각 그룹의 대표 염기서열과 상이한 염기서열을 가지는 경우를 돌연변이로 판단하여, 돌연변이의 총 개수(M)를 결정하는 제6단계; 및
    (7) 하기 수학식 1을 이용하여 돌연변이 발생률(AMR)을 계산하는 제7단계.
    [수학식 1]
    Figure PCTKR2017005952-appb-I000004
    (AMR은 돌연변이 발생률(accumulated mutation rate); M은 돌연변이의 총 개수; mi 는 i번째 랜드마크에서 선택된 유전체 조각의 수; li는 i번째 랜드마크의 유전체 조각 중에서 서열이 결정되어 분석된 염기의 수를 의미)
  2. 제1항에 있어서, 상기 (b) 단계에서,
    상기 증폭산물은 랜드마크, 어댑터, 및 1 이상의 염기를 포함하는 것인, 측정 방법.
  3. 제1항에 있어서, 상기 단계 (b)는,
    상기 제조된 증폭산물을 주형으로 하고, 상기 랜드마크의 염기서열의 전부 또는 일부에 결합하는 정방향 프라이머와 랜덤서열을 제외한 어댑터의 전부 또는 일부에 결합하는 역방향 프라이머를 이용하여 nested PCR을 수행하는 단계를 추가로 포함하는 것인, 측정 방법.
  4. 제1항에 있어서, 상기 단계(c)에서,
    상기 프라이머 쌍은 제1프라이머 및 주형마다 상이한 지표를 포함하는 제2프라이머로 이루어지는 것인, 측정 방법.
  5. 제1항에 있어서, 상기 제6단계는 mi가 10 이상일 때, 동일한 위치에서 상이한 염기를 가진 유전체 조각이 1개 존재하는 경우, 상기 염기를 돌연변이로 판단하는 것인, 측정 방법.
PCT/KR2017/005952 2016-06-16 2017-06-08 돌연변이 발생률의 측정 방법 WO2017217694A2 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US16/310,236 US11959131B2 (en) 2016-06-16 2017-06-08 Method for measuring mutation rate
EP17813518.2A EP3474168B1 (en) 2016-06-16 2017-06-08 Method for measuring mutation rate
CN201780037881.6A CN109416930B (zh) 2016-06-16 2017-06-08 突变率测量方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20160075211 2016-06-16
KR10-2016-0075211 2016-06-16
KR10-2017-0061225 2017-05-17
KR1020170061225A KR101915701B1 (ko) 2016-06-16 2017-05-17 돌연변이 발생률의 측정 방법

Publications (2)

Publication Number Publication Date
WO2017217694A2 true WO2017217694A2 (ko) 2017-12-21
WO2017217694A3 WO2017217694A3 (ko) 2018-02-01

Family

ID=60663511

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/005952 WO2017217694A2 (ko) 2016-06-16 2017-06-08 돌연변이 발생률의 측정 방법

Country Status (1)

Country Link
WO (1) WO2017217694A2 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150143025A (ko) 2014-06-13 2015-12-23 한국생명공학연구원 필라그린 유전자 돌연변이 검출용 프로브, 키트 및 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3564395A1 (en) * 2010-12-30 2019-11-06 Foundation Medicine, Inc. Optimization of multigene analysis of tumor samples
WO2012115789A2 (en) * 2011-02-24 2012-08-30 Cornell University Recurrent spop mutations in prostate cancer
EP3907299A1 (en) * 2011-04-15 2021-11-10 The Johns Hopkins University Safe sequencing system
EP2814959B1 (en) * 2012-02-17 2018-01-17 Fred Hutchinson Cancer Research Center Compositions and methods for accurately identifying mutations
WO2013181170A1 (en) * 2012-05-31 2013-12-05 Board Of Regents, The University Of Texas System Method for accurate sequencing of dna

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150143025A (ko) 2014-06-13 2015-12-23 한국생명공학연구원 필라그린 유전자 돌연변이 검출용 프로브, 키트 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TUBERC RESPIR DIS, vol. 69, 2010, pages 271 - 278

Also Published As

Publication number Publication date
WO2017217694A3 (ko) 2018-02-01

Similar Documents

Publication Publication Date Title
WO2016167408A1 (ko) 차세대 염기서열 분석기법을 이용한 장기 이식 거부 반응 예측 방법
WO2016195382A1 (ko) 바코드 서열을 포함하는 어댑터를 이용한 차세대 염기서열 분석 방법
WO2020096248A1 (ko) 폐암 조직 내 세포 유래 돌연변이를 검출하기 위한 프로브 제조 및 검출 방법
EP3919629A1 (en) Method for using whole genome re-sequencing data to quickly identify transgenic or gene editing material and insertion sites thereof
WO2013191400A1 (ko) 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법 그리고 이러한 융합 프라이머 및 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법
WO2013122319A1 (ko) 리가제 반응과 절단효소 증폭반응을 이용한 표적 유전자 또는 이의 돌연변이 검출방법
KR101915701B1 (ko) 돌연변이 발생률의 측정 방법
WO2019132581A1 (ko) 유방암 및 난소암 등 암 진단용 조성물 및 이의 용도
WO2020138995A1 (ko) 멀티플렉스 시스템을 이용한 인간 객체의 y str 유전좌위 분석방법 및 이를 이용한 분석 키트
WO2017217694A2 (ko) 돌연변이 발생률의 측정 방법
WO2022114732A1 (ko) Pcr 과정 동안 생성되는 가닥들의 정보를 연결하여 하나의 클러스터를 만들고, 생성된 가닥들의 생성 순서를 추적할 수 있는 방법
WO2019050303A1 (ko) 분자 바코드 및 블로킹 올리고뉴클레오티드를 이용한 소량 돌연변이 증폭 및 정량 방법
WO2020096247A1 (ko) 유방암 조직 내 세포 유래 돌연변이를 검출하기 위한 프로브 제조 및 검출 방법
WO2020171596A1 (ko) 가노더마 속 미생물 검출 및 뿌리 썩음병 진단을 위한 조성물 및 이를 이용한 방법
WO2022119204A1 (ko) Ebv 동정을 포함한 암 면역치료제 효능예측 표적유전체 분석법
WO2021141178A1 (ko) 뎅기 바이러스의 4종류 혈청형 동시 전장유전체 염기서열 분석용 프라이머 세트 및 이를 이용한 cDNA 합성 방법
WO2011142646A2 (ko) 인유두종바이러스 검출 및 유전형 확인 방법
WO2023140596A1 (ko) 전장유전체 증폭을 위한 치쿤군야 바이러스 범용 프라이머 세트 및 이를 이용한 진단 키트
WO2019194640A1 (ko) 분자 인덱스된 바이설파이트 시퀀싱
WO2020054906A1 (ko) 목표 유전자를 검출하기 위한 프라이머의 설계 방법
WO2022035033A1 (ko) 중증열성혈소판감소증후군 바이러스 검출용 프라이머 세트 및 이를 이용한 진단용 키트
WO2020171598A1 (ko) Ganoderma 속 미생물 검출 및 뿌리 썩음병 진단을 위한 조성물 및 이를 이용한 방법
WO2024049276A1 (ko) 다중 표적 dna의 선택적 증폭용 조성물 및 이를 이용한 증폭 방법
WO2020171604A1 (ko) Ganoderma 속 미생물 검출 및 뿌리 썩음병 진단을 위한 조성물 및 이를 이용한 방법
WO2020171595A1 (ko) 가노더마 속 미생물 검출 및 뿌리 썩음병 진단을 위한 조성물 및 이를 이용한 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17813518

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017813518

Country of ref document: EP

Effective date: 20190116