WO2013191400A1 - 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법 그리고 이러한 융합 프라이머 및 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법 - Google Patents

차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법 그리고 이러한 융합 프라이머 및 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법 Download PDF

Info

Publication number
WO2013191400A1
WO2013191400A1 PCT/KR2013/005055 KR2013005055W WO2013191400A1 WO 2013191400 A1 WO2013191400 A1 WO 2013191400A1 KR 2013005055 W KR2013005055 W KR 2013005055W WO 2013191400 A1 WO2013191400 A1 WO 2013191400A1
Authority
WO
WIPO (PCT)
Prior art keywords
target gene
formula
primer
sequence
generation sequencing
Prior art date
Application number
PCT/KR2013/005055
Other languages
English (en)
French (fr)
Inventor
황승용
김지훈
이원선
Original Assignee
(주)지노첵
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)지노첵 filed Critical (주)지노첵
Publication of WO2013191400A1 publication Critical patent/WO2013191400A1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6811Selection methods for production or design of target specific oligonucleotides or binding molecules
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Definitions

  • the present invention relates to a method for designing a fusion primer for a next generation sequencing method and a genotyping method for a target gene using the fusion primer and the next generation sequencing method, and more specifically, genotyping of large samples ranging from hundreds to millions of years.
  • the present invention relates to a method for designing a fusion primer for a next generation sequencing method capable of precisely in a short time and a genotyping method for a target gene using the fusion primer and the next generation sequencing method.
  • the present invention is a method of designing a fusion primer for the next generation sequencing method to perform genotyping of the target genes for a plurality of samples in one experiment so that there is no error in matching between the genotype analysis results and each sample and such fusion It relates to a method for genotyping a target gene using primers and next-generation sequencing.
  • the present invention provides a single experiment for identifying the number of repetitions of a specific target gene, such as a STR (short tandem repeat) of a marker gene, for a large sample, while at the same time existing single nucleotide polymorphism (single nucleotide polymorphism); SNP) and genotype analysis method of the target gene using the next generation sequencing method that enables the discovery of new marker genes through this.
  • a specific target gene such as a STR (short tandem repeat) of a marker gene
  • next-generation sequencing has been popularized and attracted a lot of people.
  • the technology using next-generation sequencing is rapidly developing, and the genotyping price using it is becoming cheaper.
  • Typical Next Generation Sequencers for implementing next-generation sequencing are Roche / 454, Illumina / Solexa and SOLiD from Life Technologies (ABI).
  • Roche / 454 and SOLiD employ a method of amplifying the template in the sample to be analyzed by performing emulsion PCR (emPCR) with the template complementarily bound to DNA on a solid support or bead (Michael L).
  • emPCR emulsion PCR
  • Metzker Aapplications of next-generation sequencing; Sequencing technologies the next generation, Nature Reviews Genetics, Vol. 11, pp31-46, January 2010).
  • the latest model of the Roche / 454 is the GS FLX Titanium sequencer and its compact GS Junior Titanium sequencer, which can read 80 million sequences in seven hours.
  • Next-generation sequencing can yield 80 million to 3 billion base pairs of nucleotide sequence information in a single operation, while using the equipment described above once or twice a week, the amount of data is immense.
  • the problem of information processing speed and sequencing data integration is emerging.
  • the sequence variation information coming from the next generation sequencing method is so large that it is impossible for the user to search individually.
  • the length of the sequence in a large amount of nucleotide sequence data generated using the next generation sequencing method has a problem that is significantly shorter than the nucleotide sequence data generated by the conventional Sanger method.
  • microsatellite DNA is a simple sequence repeat (SSR) of 1 to 5 evenly distributed in the genome of most eukaryotes, various markers (genetic markers) genetic analysis, for example, animal phylogenetic, It is used to analyze genetic flexibility.
  • SSR simple sequence repeat
  • Microsatellite DNA is evenly distributed throughout the genome and is known to reach 100,000, with short tandem repeats (STRs) representing variations among individuals. For example, if a particular microsatellite DNA marker has a genotype of 12 repetitions and 19 repetitions on the paternal side and 18 repetitions and 15 repetitions on the maternal side, the primary progeny would have 12 and 15 repetitions. Can have.
  • the microsatellite analysis currently used in the beef tracker is not consistent depending on the conditions (equipment, reagents, experimenters, etc.).
  • Capillary electrophoresis is used in the process, which is not suitable for analyzing large samples. For this reason, about 2.7 million heads of beef are raised in 2011, but only the selected individuals are selected by selecting samples (about 10,000 ⁇ 20,000 per year) that need to be examined after sample storage for about 70 to 1 million heads slaughtered. This is done.
  • the exact cause of the error cannot be found because the original object identification number for the wrong object cannot be found. Therefore, it is necessary to perform a full test of the entire sample to make a database, and for this purpose, it is necessary to provide a method capable of accurately and inexpensively analyzing a large sample in a short time.
  • Republic of Korea Patent Publication No. 10-0816476 discloses a microsatellite DNA primer associated with the economic traits of Hanwoo
  • Republic of Korea Patent Publication No. 10-0901817 is a primer set for the construction of the Hanwoo production history system and this Disclosed is a method for discriminating Korean cattle
  • Korean Patent Publication No. 10-1008941 discloses a method for discriminating Korean cattle and imported cattle by multiplexing PCL and a primer used therein.
  • these conventional techniques identify Hanwoo cultivar by performing multiplexing PCR on various markers of microsatellite DNA, capillary electrophoresis on amplification products, and detecting peak values to confirm STR repeat counts as described above.
  • an object of the present invention is to design a fusion primer for the next generation sequencing method to perform genotyping of the target genes for a plurality of samples in one experiment so that there is no error in matching between the genotype analysis results and each sample and It is to provide a method for genotyping a target gene using such a fusion primer and next-generation sequencing.
  • STR short tandem repeat
  • SNP single nucleotide polymorphism
  • an object of the present invention is to use a new next-generation sequencing method to prevent the problem that the dimers of primers not consumed in the preparation of an amplicon in the next-generation sequencing are amplified and adversely affect the sequencing results. It is to provide a method for genotyping a target gene.
  • the present inventors performed genotyping of target genes on a plurality of samples in one experiment, while the genotyping results and the respective samples were analyzed.
  • next-generation sequencing is a new concept of sequencing technology capable of reading a large amount of nucleotide sequences and generating a large amount of sequencing data for a sample to be analyzed within a short time. Sequencing techniques using equipment such as, for example, Roche / 454, Illumina / Solexa and SOLiD (Michael L. Metzker, Aapplications of next-generation sequencing; Sequencing technologies the next generation, Nature Reviews Genetics, Vol. 11, pp 31-46, January 2010).
  • target gene refers to a gene having a useful mutation for genotyping among genes in a sample to be analyzed, for example, a marker gene used for gene identification or identification of an individual, a specific disease. Marker genes, genes having genetically significant mutations, genes having short tandem repeats (STRs), and genes having single nucleotide polymorphisms.
  • STRs short tandem repeats
  • emulsion PCR used in the specification of the present invention refers to a single template by spatially separating the DNA library of genes in the sample to be analyzed for each template and amplifying the emulsion in an oil droplet.
  • a single template is prepared by dropping beads containing one-way PCR primer (forward primer or reverse primer) and PCR amplification reagent (including DNA polymerase, dNTP, etc.) in oil.
  • PCR amplification reagent including DNA polymerase, dNTP, etc.
  • gel extraction refers to loading DNA or RNA into a gel and then cutting only the desired band when several bands appear and purifying the target DNA or RNA contained therein. Means the way.
  • microsatellite markers described in the examples of the present invention should be understood as an example of the target gene, using a method for designing a fusion primer for the next generation sequencing method of the present invention, and using such a fusion primer and the next generation sequencing method
  • Genotyping methods for target genes should be understood as a basis for application to genotyping of various individuals or samples and various target genes.
  • the present invention provides a method for designing a fusion primer for the next generation sequencing method having the following structural formula:
  • X is composed of a non-homologous primer sequence that is not homologous to a gene sequence specific for at least one target gene present in all samples to be analyzed
  • Y is the target gene for all samples.
  • the genotype When the genotype is analyzed simultaneously, it consists of MID (Multiflex identifier) sequence that identifies each sample, and Z is composed of a target gene specific primer sequence that complementarily binds to a gene sequence specific for the target gene. It is done.
  • MID Multiflex identifier
  • n is an integer equal to 2 or greater than 2 as an integer corresponding to the number of samples to be analyzed
  • m is an integer equal to or greater than 1 as an integer consistent with the number of target genes.
  • the fusion primer of the formula 1 is a forward fusion primer paired with the reverse fusion primer
  • the fusion primer of the formula 1 is a reverse fusion primer
  • the forward fusion primer paired with this is characterized by having the following structural formula:
  • X ', Y and Z' in the formula 2 is the same as X, Y and Z of the formula 1
  • n and m values of the formula 2 is also the same as the n and m values of the formula (1).
  • the length of the fusion primer of Formula 1 and / or Formula 2 is 50 b.p. To 70 b.p. It is preferable that it is the range of (base pair).
  • Y in Formula 1 and / or Formula 2 may be a MID sequence selected from the group consisting of SEQ ID NO: 1 to SEQ ID NO: 132, where n is 132.
  • the present invention is not limited thereto, and 10 b.p. To 20 b.p. Of course, short sequences of length are applicable to the present invention.
  • X, X 'in the formula 1 and formula 2 is composed of a non-homologous primer sequence having no homology with the gene sequence specific to at least one target gene present in all samples to be analyzed
  • Y is When analyzing the genotype of the target gene for all samples at the same time consists of a MID (Multiflex identifier) sequence that identifies each sample, Z, Z 'is complementary to the gene sequence specific to the target gene Comprising the target gene specific primer sequence
  • n is an integer that matches the number of samples to be analyzed, an integer equal to 2 or greater than 2
  • m is an integer that matches the number of target genes equal to 1 or 1 Is an integer greater than
  • step (b) amplifying at least one target gene present in all samples to be analyzed using the fusion primer pair prepared in step (a) to obtain a PCR amplification product for the at least one target gene for each sample Steps,
  • step (c) purifying by performing gel extraction on the PCR amplification products obtained in order to remove fusion primers and primer dimers not consumed in step (b);
  • step (d) performing emulsion PCR (emPCR) using the PCR amplified product purified in step (c) as a template;
  • step (e) determining the sequence of the at least one target gene for each sample from the sequencing results of the emulsion PCR amplification products obtained in step (d);
  • step (f) analyzing the genotype of the target gene for each sample from the sequence of the at least one target gene determined in step (e).
  • the target gene comprises a short tandem repeat (STR) and / or a single nucleotide polymorphism site, and in step (f) STR ( short tandem repeat) to determine the number of repetitions and the presence or absence of a single base polymorphism before and after the STR.
  • STR short tandem repeat
  • Y in the structural formula 1 and / or 2 is a MID sequence selected from the group consisting of SEQ ID NO: 1 to SEQ ID NO: 132 In this case, the n value is 132.
  • the present invention is not limited thereto, and 10 b.p. To 20 b.p. Of course, short sequences of length are applicable to the present invention.
  • the present invention it is possible to provide a method for designing a fusion primer for the next generation sequencing method which performs genotyping of target genes for a plurality of samples in one experiment so that there is no error in matching between the genotyping results and each sample. And genotyping of large samples from hundreds to tens of millions can be done quickly and accurately.
  • the single nucleotide polymorphism existing before and after the STR while confirming the number of repetitions of the STR (short tandem repeat) of a specific target gene, for example, a marker gene, for a large sample in one experiment. SNP can be identified and thereby enables the discovery of new marker genes.
  • dimers of primers that are not consumed in the preparation of an amplicon can be amplified to prevent a problem that adversely affects the sequencing result.
  • MID 1 is 11 for specifically amplifying the microsatellite markers BM1824, BM2113, ETH10, ETH225, ETH3, INRA23, SPS115, TGLA122, TGLA126, TGLA227, and TGLA53, respectively, used to identify individuals of cattle (MID 1). It is a figure which shows the sequence of a pair of fusion primer pair.
  • FIG. 2 shows eleven for specifically amplifying the microsatellite markers BM1824, BM2113, ETH10, ETH225, ETH3, INRA23, SPS115, TGLA122, TGLA126, TGLA227 and TGLA53, respectively, used for identification of cattle (MID 2). It is a figure which shows the sequence of a pair of fusion primer pair.
  • Figure 3 shows the results of electrophoresis on the amplification product after performing multiplex PCR amplification using the fusion primer pairs of FIGS. 1 and 2 (left), and PCR amplification products are normally generated when each fusion primer pair is used.
  • Photograph (right) shows electrophoresis results showing
  • Figure 4 is a graph of the results measured using an Agilent 2100 Bioanalyzer (Agilent 2100 Bioanalyzer) as a sample library quantitative results graph of Example 3 of the present invention.
  • FIG. 5 shows the result of arranging each read data sequenced with the reference sequence with 100% concordance with respect to the TGLA227 marker in Example 5 of the present invention (left), and the distribution of the respective read data of the group thus sorted. It is a summary chart and graph (right).
  • FIG. 6 shows the number of repeats (* marked box) of STRs for BM1824, BM2113, ETH10, ETH225, SPS115 and TGLA53 markers and single nucleotide polymorphisms located before and after repeat sequences using the next-generation sequencing method of the present invention. It is a figure which shows the confirmation of a ** display box.
  • the individual sequencing of the markers and the sequencing result analysis were performed.
  • Each fusion primer pair is an "adapter primer sequence portion or a sequencing primer sequence portion” and a “barcode sequence or MID (Multiflex identifier) for identification of an individual (sample) in the simultaneous analysis of microsatellite markers of large individuals (samples). ) "And a" STR marker specific primer sequence portion “comprising the STR portion of the microsatellite marker.
  • the PCR amplification premix shown in Table 2 is commercially available from the PCR amplification kit manufacturer, for example, consisting of PCR buffer, dNTP, TaKaRa Ex Taq TM .
  • Example 1 When the PCR amplification product (Amplicon) obtained in Example 1 is purified only by a kit called AMPure of GS Junior Titanium sequencer, which is a device used for next-generation sequencing as in the prior art, it is carried out as well as amplicon. The inventors confirmed that the fusion primers not consumed in the PCR reaction of Example 1 and the primer dimers generated therefrom were also purified. As described above, when multiplex PCR is performed in advance to use an amplicon as a template, dimers of primers as well as amplicons are generated, and these primer dimers are amplified in a subsequent emPCR process and adversely affect sequencing results. It was confirmed.
  • the present inventors have intensively studied, and as a result of performing the following gel extraction process, the dimers of unconsumed primers among the fusion primers are amplified and sequencing thereof. The problem of adverse effects of the result was solved.
  • gel extraction was performed to purely separate only the amplification product corresponding to the amplicon.
  • a QIAquick Gel Extraction Kit using microcentrifuge Cat. No. 28704 using microcentrifugation was used.
  • a desired DNA fragment was cut from an agarose gel subjected to electrophoresis, the gel was dissolved at 50 ° C., and isopropanol was mixed. Then, centrifugation was performed using a buffer solution, a spin column, and a collection tube provided by the manufacturer of the QIAquick gel extraction kit, followed by a buffer solution and ethanol (96% to 100%) provided by the manufacturer. ) was performed with a washing buffer containing). Then, after incubation using an elution buffer (elution buffer or H 2 O provided by the manufacturer) to obtain purified DNA to prepare a purified amplicon sample. Prepared samples were stored at -20 ° C until use.
  • the plunger was placed in 1 ml and the chip prime station was closed. The plunger was lowered to the clip position and then fixed using the clip. After 60 seconds, the clip was opened. Then wait 5 more seconds and place the plunger in 1 ml.
  • the chip priming station was opened and the gel-die mix was dispensed at the remaining designated positions. Markers were dispensed into all samples and ladder wells so that there were no empty wells. High sensitivity DNA ladders were then dispensed at the indicated locations, and samples or markers were dispensed into each well of 11 samples.
  • the chip was then placed in an IKA vortex mixer and allowed to react for 1 minute at 2400 rpm. Measurements were started within 5 minutes using an Agilent 2100 Bioanalyzer. The measurement result is as shown in FIG.
  • EmPCR amplification was performed using the emPCR reagent, GS Junior Titanium emPCR oil, and the Breaking Kit provided by GS Junior Titanium Sequencer, an instrument used for next-generation sequencing.
  • the kit contents were opened and all reagents were used after vortexing.
  • Enzyme Mix and PPiase (peptidyl-prolyl isomerase) tubes were stored at -15 ° C to -25 ° C.
  • the additive of the vortexed manufacturer's kit was dissolved at 55 ° C. for 5 minutes and centrifuged if there was a substance that was not dissolved. Only the supernatant was used.
  • Enzyme was stored at ⁇ 15 ° C. to ⁇ 25 ° C., and the other contents were stored at room temperature.
  • Mock Mix and Molecular Biology Grade Water from the manufacturer's kit were mixed to make a 1 ⁇ Mock Mix, which was then mixed with emulsion oil.
  • the emulsion oil mixture was prepared using 410 ⁇ l Molecular Biology Grade Water, 515 ⁇ l Additive, 270 ⁇ l Amp Mix, 80 ⁇ l Amp Primer, 70 ⁇ l Enzyme Mix Mix) and 2 ⁇ l of PPiase were mixed with a Live Amp Mix and stored on ice.
  • wash buffer and Molecular Biology Grade Water were mixed to make a 1 ⁇ wash buffer.
  • Capture beads were prepared and washed with the 1 ⁇ wash buffer made earlier.
  • the amount of amplicons obtained in Examples 1 and 2 ie, the DNA library to be used in the sample DNA library, was calculated based on the capture beads, and the calculated amount of the DNA library was mixed with the capture beads to form an amplicon.
  • the template was allowed to be captured by DNA on capture beads.
  • the DNA on the capture beads corresponds to the adapter primer sequence portion (or sequencing primer sequence portion) of the fusion primer described in Example 1.
  • the capture beads and the emulsion oil mixture are mixed well. Mad.
  • 125 ⁇ l of NaOH (10N) and 9.875 mL Molecular Biology Grade Water were mixed to make a Melt Solution, which was transferred to a DNA-bead suspension tube and allowed to react at room temperature for 2 minutes. Then, the supernatant was removed by centrifugation of the reaction mixture, 45 ⁇ l of annealing buffer and 25 ⁇ l Enrich Primer were mixed, and then reacted at 65 ° C. for 5 minutes and then on ice for 2 minutes. I was.
  • Enrichment Beads After Enrichment Beads are sufficiently mixed, place them in Magnetic Particle Concentrator (MPC) to make Enrichment Beads pellets, remove supernatant to prevent beads from drying out, and enhance Enhancing Buffer (Enhancing). Buffer) was added. The obtained beads were placed in the MPC again to make pellets, and the supernatant was removed so that the beads did not dry out, and the mixture was added by adding an Enhancing Buffer.
  • MPC Magnetic Particle Concentrator
  • the washed enrichment beads were mixed into the enrichment tubes prepared previously. After reacting by rotating for 5 minutes at room temperature using LabQuake, the enrichment tube was placed in the MPC to generate pellets, and then the supernatant was removed and the brown enrichment beads were kept dry. Then, after continual washing until no white DNA-beads came out, the enrichment tube was separated from the MPC and a melt solution was added to the enrichment tube.
  • the enrichment tube was placed back in the MPC to allow pellets to be produced and the supernatant transferred to a new 1.7 ml tube. After 700 ⁇ l of Melting Solution (Melt Solution) was added to the original enrichment tube and thoroughly mixed, the enrichment tube was once again placed in the MPC to generate pellets. Supernatants were collected together in an enrichment tube.
  • Melting Solution Melting Solution
  • annealing buffer (Annealing Buffer) was added and then centrifuged to remove the supernatant. After completion of the washing process, annealing buffer was added to the enrichment tube and mixed.
  • the sequencing primer provided by GS Junior Titanium Sequencer was added to the enrichment tube prepared in step (6), mixed, and then reacted at 65 ° C. for 5 minutes and then reacted on ice for 2 minutes.
  • the sequencing primer may have the same sequence as or complementary to the adapter primer sequence portion (or sequencing primer sequence portion) of the fusion primer described in Example 1.
  • the annealing buffer (Annealing Buffer) was added to the enrichment tube and sufficiently mixed and centrifuged to remove the supernatant.
  • the annealing buffer (Annealing Buffer) was added again and thoroughly mixed and centrifuged to remove the supernatant.
  • the number of beads was measured using a GS Junior Bead Counter.
  • an enrichment tube was placed in the hole in the bottom of the GS junior bead counter. The position of the eye was fixed to the left side of the window of the GS Junior Bead Counter to measure the height of the beads visible from the window to count the beads.
  • the sample prepared for sequencing can be stored for 2 weeks at 2 °C ⁇ 8 °C.
  • mapping was performed. That is, in the present embodiment, BM1824 (SEQ ID NO: 177), BM2113 (SEQ ID NO: 178), ETH10 (SEQ ID NO: 179), ETH225 (SEQ ID NO: 180), ETH3 (SEQ ID NO: 181), SPS115 (SEQ ID NO: 182), and TGLA122 ( SEQ ID NO: 183), reference sequences for the nine markers of TGLA227 (SEQ ID NO: 184) and TGLA53 (SEQ ID NO: 185), and the above nine of each individual (MID 1 and MID 2) obtained from the sequencing results as described above.
  • the mapping was performed by sorting the sequence data for the markers.
  • mapping was performed with 80% concordance and 100% concordance with the reference sequence. As a result, no mapping result for the TGLA53 marker was obtained. Did not come out. On the other hand, when the mapping was performed with 80% agreement, the mapping results of the MID 1 and MID 2 objects were obtained as shown in Table 3 and Table 4 below.
  • FIG. 5 shows the distribution of the respective read data of the sorted group. The same result as the right side of was obtained.
  • the genotyping method of the target gene using the next-generation sequencing method of the present invention as described above, from the sequence data obtained for each individual for the microsatellite markers, the number of repetitions of the short tandem repeat (STR) is confirmed.
  • STR short tandem repeat
  • SNPs single nucleotide polymorphisms located before and after the repeating sequence can be identified. That is, as shown in Figure 6, from the sequencing results according to the genotyping method of the target gene using the next generation sequencing method of the present invention for the BM1824, BM2113, ETH10, ETH225, SPS115 and TGLA53 markers Not only can be identified (* marked box) but also the single-base polymorphism (** marked box) between individuals located before and after the repeating sequence.
  • the genotyping method of the target gene using the next-generation sequencing method of the present invention while confirming the number of repetitions of the STR of a specific target gene, for example, the marker gene, for a large sample in a single experiment, may be present before and after the STR.
  • Single nucleotide polymorphisms can be identified and through this there is an advantage that enables the discovery of new marker genes.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 한 번의 실험으로 다수의 시료에 대한 표적 유전자의 유전자형 분석을 수행하면서도 유전자형 분석결과와 각각의 시료의 매칭의 오류가 없도록 하는 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법과, 이러한 융합 프라이머 및 차세대 염기서열 분석법을 이용한 새로운 표적 유전자의 유전자형 분석방법을 제공한다.

Description

차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법 그리고 이러한 융합 프라이머 및 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법
본 발명은 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법 그리고 이러한 융합 프라이머 및 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법에 관한 것으로서, 보다 상세하게는 수백에서 수천만에 이르는 대량 시료에 대한 유전자형 분석을 짧은 시간 내에 정확하게 할 수 있는 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법 그리고 이러한 융합 프라이머 및 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법에 관한 것이다.
또한, 본 발명은 한 번의 실험으로 다수의 시료에 대한 표적 유전자의 유전자형 분석을 수행하면서도 유전자형 분석결과와 각각의 시료의 매칭의 오류가 없도록 하는 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법 그리고 이러한 융합 프라이머 및 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법에 관한 것이다.
특히, 본 발명은 한 번의 실험으로 대량 시료에 대한 특정 표적 유전자, 예를 들어 마커 유전자의 STR (short tandem repeat)의 반복 개수를 확인하면서도 동시에 STR의 전후에 존재하는 단일염기다형성(single nucleotide polymorphism; SNP)을 확인할 수 있고 이를 통해 새로운 마커 유전자의 발굴을 가능하게 하는 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법에 관한 것이다.
추가로, 본 발명은 차세대 염기서열 분석법에 있어서 앰플리콘(amplicon)의 준비과정에서 소모되지 않은 프라이머들의 이량체들이 증폭되어 시퀀싱 결과에 악영향을 미치는 문제를 방지하는 새로운 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법에 관한 것이다.
최근 차세대 염기서열 분석법(Next Generation Sequencing: NGS)이 대중화되면서 많은 사람들의 관심을 받고 있다. 차세대 염기서열 분석법을 이용한 기술은 비약적으로 발전하고 있고, 이를 이용한 유전자형 분석 가격은 저렴해지고 있다.
차세대 염기서열 분석법을 구현하는 차세대 게놈 시퀀서(NGS; Next Generation Sequencer)로 대표적인 것으로는 로슈(Roche)/454, 일루미나(Illumina)/Solexa 및 라이프 테크놀로지스(ABI)의 SOLiD가 있다. 로슈/454와 SOLiD는 고체상의 지지체나 비드 상의 DNA에 주형이 상보적으로 결합된 상태에서 에멀젼 PCR (Emulsion PCR; emPCR)을 수행하여 분석대상 시료 내의 주형을 증폭하는 방식을 채택하고 있다(Michael L. Metzker, Aapplications of next-generation sequencing; Sequencing technologies the next generation, Nature Reviews Genetics, Vol.11, pp31-46, January 2010). 로슈/454의 최신형 모델로 GS FLX 티타늄 시퀀서(GS FLX Titanium sequencer)와, 이를 소형화한 GS 쥬니어 티타늄 시퀀서(GS Junior Titanium sequencer)가 있으며, 이들 장비는 7시간에 8,000만개 서열의 판독이 가능하다. 이러한 기술 발전으로 종래에는 막대한 검사 비용으로 인해 연구용으로만 사용되던 차세대 염기서열 분석법을 의료용 임상 검사에서 활용할 수 있게 되었다.
차세대 염기서열 분석법은 1회의 장비 작동으로 8천만개에서 30억개 염기쌍의 염기서열 정보를 얻을 수 있는 반면에, 전술한 바와 같은 장비를 1주일에 1~2회만 운용해도 그 자료량은 엄청난 분량이 되어 생물정보 분야에서 정보 처리 속도와 염기서열 데이터 통합이라는 문제를 새롭게 부각시키게 되었다. 즉, 차세대 염기서열 분석법으로부터 나오는 염기서열 변이 정보는 너무 방대한 양이므로 사용자가 일일이 검색하기는 불가능하다. 또한, 차세대 염기서열 분석법을 이용하여 생성된 대용량의 염기서열 데이터에서 서열의 길이는 종래의 생거(Sanger) 방법으로 생성한 염기서열 데이터에 비하여 현저하게 짧은 문제점이 있다. 즉, 차세대 염기서열 분석법은 이러한 문제로 인해 짧은 서열들을 모아서 레퍼런스(reference)가 없는 새로운 게놈 염기서열 구성하거나, 동일종 또는 비슷한 종의 서열을 참고로 하여 게놈 염기서열을 구성하는 과정이 필요한 단점이 있다. 뿐만아니라, 로슈(Roche)/454 기반의 차세대 염기서열 분석용 시퀀서는 사전에 증폭되어 준비된 주형인 앰플리콘(amplicon)을 에멀젼 PCR 과정에서 고체상의 지지체나 비드 상에 결합된 DNA에 상보적으로 어닐링한 후 증폭시키는데 이때 주형 만이 증폭되어는 것이 아니라 앰플리콘(amplicon)의 준비과정에서 소모되지 않은 프라이머들의 이량체들이 증폭되어 시퀀싱 결과에 악영향을 미치는 문제가 있다.
한편, 최근 국내 먹거리에 대한 안전성은 사회적 문제로 대두되고 있으며, 식품의 안전성 관리를 위해 식품의 제조, 유통 및 판매의 이력추적제의 도입이 검토되고 있다. 그런데, 먹거리의 안전성을 위해 구축된 쇠고기와 같은 식품 이력추적제에서 가장 큰 문제점은 소의 도축당시 원래 개체에게 주어지는 이력추적제용 번호가 가공 후에도 안전하게 유지되어야 하나 가공상의 실수, 유통 및 판매 과정에서의 실수 및 고의적인 의도로 다른 육류의 개체식별번호로 바뀔 수 있다는 것이다. 이러한 문제를 감안하여, 쇠고기의 경우 수입육을 국내산으로 둔갑시키는 것을 방지하기 위해 쇠고기이력추적제에서 DNA 동일성 검사를 도입하여 실시하고 있다. 현재 DNA 동일성 검사는 마이크로새틀라이트(microsatellite; MS) DNA의 유전적 특징을 이용하여 개체식별을 하는 방식을 이용하고 있다.
참고로, 마이크로새틀라이트 DNA는 1~5개의 SSR(simple sequence repeat)로서 대부분의 진핵생물의 게놈에 골고루 분포되어 있고, 여러 가지 마커(genetic marker)가 유전분석, 예를 들어 동물의 계통분류, 유전적 유연관계 분석에 이용되고 있다. 마이크로새틀라이트 DNA는 전체 게놈에 고르게 분포되어 있고 그 수는 100,000개에 이른다고 알려져 있는데, STR(short tandem repeat)의 반복개수가 개체 간 변이를 나타낸다. 예를 들어, 특정 마이크로새틀라이트 DNA 마커에 대해 부계 쪽에서 12개의 반복과 19개의 반복의 유전자형을 갖고 있고 모계 쪽에서 18개의 반복과 15개의 반복을 가지고 있다면 1차 자손은 12개의 반복과 15개의 반복을 가질 수 있다. 그런데, 현재 쇠고기이력추적제에서 사용되는 마이크로새틀라이트 분석은 조건(기기, 시약, 실험자 등)에 따라 결과가 일정치 않아 사후에 한우개체인식 분석을 할 경우 결과가 부정확할 가능성이 존재하며, 검사과정에서 모세관 전기영동 방식을 이용하기 때문에 대량시료를 분석하기에 적합하지 않은 단점이 있다. 이러한 이유로 쇠고기의 경우, 2011년 약 270만두가 사육되고 있으나, 도축되는 약 70~100만두에 대한 시료보관 후 검사가 필요한 시료(년간 약 1만~2만)를 선정하여 선정된 개체의 검사만이 이루어지고 있다. 그러나, 이러한 검사 시스템에서 개체식별번호와 맞지 않은 개체가 발견되는 경우, 잘못된 개체에 대한 원 개체식별번호를 찾을 수 없기 때문에 정확한 오류의 원인을 찾을 수가 없다. 따라서, 전체 시료에 대한 전수 검사를 수행하여 데이터베이스화하는 것이 필요하며, 이를 위해 대량 시료를 짧은 시간 내에 정확하면서 저렴하게 분석할 수 있는 방법의 제공이 필요하다.
이와 관련하여 대한민국 등록특허공보 제10-0816476호는 한우의 경제형질과 연관된 마이크로새틀라이트 DNA 프라이머에 대해 개시하고 있고, 대한민국 등록특허공보 제10-0901817호는 한우 생산이력체계 구축용 프라이머 세트 및 이를 이용한 한우 개체 판별방법을 개시하고 있으며, 대한민국 등록특허공보 제10-1008941호는 멀티플렉싱 피씨알에 의한 한우와 수입우의 판별방법 및 이에 사용되는 프라이머를 개시하고 있다. 그러나, 이러한 종래기술들은 전술한 바와 같이 마이크로새틀라이트 DNA의 여러 마커에 대해 멀티플렉싱 PCR을 수행하고 증폭 산물에 대해 모세관 전기영동을 수행한 후 피크 값을 검출하여 STR 반복개수를 확인함으로써 한우 품종을 확인하는 방법으로서, 대량 시료 분석에는 적합하지 않고 피크 값의 부정확성에 기인한 STR 분석의 오류 문제를 근원적으로 갖고 있다. 따라서, 쇠고기이력추적과 같이 대량 시료에 대한 마이크로새틀라이트 분석이 필요한 분야에 있어서는 차세대 염기서열 분석법을 이용하여 대량 시료의 마이크로새틀라이트의 마커 유전자의 염기서열을 동시에 분석함으로써, 종래기술의 분석 결과 오류에 따른 문제점을 해결하는 동시에 마커 유전자의 STR 분석을 짧은 시간 내에 정확하게 할 수 있는 기술의 제공이 요구되고 있다고 할 수 있다.
본 발명의 목적은 수백에서 수천만에 이르는 대량 시료에 대한 유전자형 분석을 짧은 시간 내에 정확하게 할 수 있는 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법 그리고 이러한 융합 프라이머 및 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법을 제공하는 것이다.
또한, 본 발명의 목적은 한 번의 실험으로 다수의 시료에 대한 표적 유전자의 유전자형 분석을 수행하면서도 유전자형 분석결과와 각각의 시료의 매칭의 오류가 없도록 하는 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법 그리고 이러한 융합 프라이머 및 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법을 제공하는 것이다.
특히, 본 발명의 목적은 한 번의 실험으로 대량 시료에 대한 특정 표적 유전자, 예를 들어 마커 유전자의 STR (short tandem repeat)의 반복 개수를 확인하면서도 동시에 STR의 전후에 존재하는 단일염기다형성(single nucleotide polymorphism; SNP)을 확인할 수 있고 이를 통해 새로운 마커 유전자의 발굴을 가능하게 하는 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법을 제공하는 것이다.
추가로, 본 발명의 목적은 차세대 염기서열 분석법에 있어서 앰플리콘(amplicon)의 준비과정에서 소모되지 않은 프라이머들의 이량체들이 증폭되어 시퀀싱 결과에 악영향을 미치는 문제를 방지하는 새로운 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법을 제공하는 것이다.
상기한 기술적 과제를 해결하고 상기한 발명의 목적에 부합되도록 예의 연구를 거듭한 결과, 본 발명자들은 한 번의 실험으로 다수의 시료에 대한 표적 유전자의 유전자형 분석을 수행하면서도 유전자형 분석결과와 각각의 시료의 매칭의 오류가 없도록 하는 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법과, 이러한 융합 프라이머 및 차세대 염기서열 분석법을 이용한 새로운 표적 유전자의 유전자형 분석방법을 완성하기에 이르렀다.
우선, 본 발명의 명세서에서 사용되는 용어를 설명하면 다음과 같다.
본 발명의 명세서에서 사용되는 "차세대 염기서열 분석법"이란 짧은 시간 내에 분석대상이 되는 시료에 대해 대량의 염기서열의 판독이 가능하고 대량의 염기서열 데이터를 생성할 수 있는 신개념의 염기서열 분석 기술로서, 예를 들어 로슈/454, 일루미나(Illumina)/Solexa 및 SOLiD와 같은 장비를 이용한 이용한 염기서열 분석기술 등을 들 수 있다(Michael L. Metzker, Aapplications of next-generation sequencing; Sequencing technologies the next generation, Nature Reviews Genetics, Vol.11, pp31-46, January 2010).
본 발명의 명세서에서 사용되는 "표적 유전자"라는 용어는 분석대상이 되는 시료 내의 유전자들 중 유전자형 분석에 유용한 변이가 존재하는 유전자로서, 예를 들어 유전자 감식이나 개체 식별에 사용되는 마커 유전자, 특정 질환의 진단에 사용되는 마커 유전자, 유전학적으로 의미가 있는 돌연변이를 갖는 유전자, STR (short tandem repeat)을 갖는 유전자 및 단일염기다형성을 갖는 유전자 등을 들 수 있다.
또한, 본 발명의 명세서에서 사용되는 "에멀젼 PCR(emPCR")이란 분석대상이 되는 시료 내의 유전자들의 DNA 라이브러리를 각각의 주형 별로 공간적으로 분리하고 오일 방울(droplet) 내의 에멀젼 상태에서 증폭함으로써 단일 주형에 대한 클로날 증폭(clonal amplification)을 수행하는 기술로서, 오일 내에 한쪽 방향 PCR 프라이머(정방향 프라이머 또는 역방향 프라이머)가 결합된 비드와 PCR 증폭 시약(DNA 중합 효소, dNTP 등 포함)을 적하시킴으로써 단일 주형을 포획한 하나의 비드와 PCR 증폭 시약이 포함된 에멀젼을 만든 후 PCR 증폭을 수행하는 기술을 의미한다. 이러한 에멀젼 PCR에서는 오일 방울에 포함된 비드 상에 한쪽 방향 프라이머가 결합되어 고정된 상태이기 때문에 증폭 후 비드의 표면에는 단일 주형이 증폭된 상태로 결합하여 존재하게 되고 이러한 비드를 회수하면 추후 수행되는 시퀀싱 작업을 수행할 수 있다.
추가로, 본 발명의 명세서에서 사용되는 "젤 추출(gel extraction)"이란 DNA 또는 RNA를 젤에 로딩한 후 여러 밴드가 나타날 때 원하는 밴드만을 잘라내고, 그 안에 들어 있는 표적 DNA 또는 RNA를 정제하는 방법을 의미한다.
한편, 본 발명의 실시예에서 설명되는 마이크로새틀라이트 마커는 표적 유전자의 예시로서 이해되어야 하며, 본 발명의 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법과, 이러한 융합 프라이머 및 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법은 다양한 개체 또는 시료와, 다양한 표적 유전자에 대한 유전자형 분석에 적용가능한 기반기술로서 이해되어야 할 것이다.
본 발명은 하기 구조식 1을 갖는 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법을 제공한다:
구조식 1
Figure PCTKR2013005055-appb-I000001
상기 구조식 1에서 X는 분석대상이 되는 모든 시료 내에 존재하는 적어도 하나의 표적 유전자에 특이적인 유전자 서열과는 상동성이 없는 비상동성의 프라이머 서열로 구성하고, Y는 모든 시료에 대한 상기 표적 유전자의 유전자형을 동시에 분석할 때 각각의 시료를 식별해 주는 MID (Multiflex identifier) 서열로 구성하며, Z는 상기 표적 유전자에 특이적인 유전자 서열과 상보적으로 결합하는 표적 유전자 특이적인 프라이머 서열로 구성하는 것을 특징으로 한다.
상기 구조식 1에서 n은 분석대상이 되는 시료의 개수와 일치하는 정수로서 2와 같거나 2보다 큰 정수이고, m은 표적 유전자의 개수와 일치하는 정수로서 1과 같거나 1보다 큰 정수이다.
본 발명의 일실시예의 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법에 있어서, 상기 구조식 1의 융합 프라이머가 정방향 융합 프라이머이면 이와 쌍을 이루는 역방향 융합 프라이머, 그리고 상기 구조식 1의 융합 프라이머가 역방향 융합 프라이머이면 이와 쌍을 이루는 정방향 융합 프라이머는 하기 구조식 2를 갖는 것을 특징으로 한다:
구조식 2
Figure PCTKR2013005055-appb-I000002
상기 구조식 2에서 X', Y 및 Z'의 정의는 상기 구조식 1의 X, Y 및 Z와 동일하고, 상기 구조식 2의 n 및 m 값도 상기 구조식 1의 n 및 m 값과 동일하다.
본 발명의 일실시예의 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법에 있어서, 상기 구조식 1 및/또는 상기 구조식 2의 융합 프라이머의 길이는 50 b.p. 내지 70 b.p. (base pair)의 범위인 것이 바람직하다.
또한, 상기 구조식 1 및/또는 상기 구조식 2에서 Y는 서열번호 1 내지 서열번호 132로 구성된 군으로부터 선택된 MID 서열일 수 있으며, 이 경우 n값은 132가 된다. 그러나, 본 발명은 이에 제한되는 것이 아니며 시료를 식별해 줄 수 있는 10 b.p. 내지 20 b.p. 길이의 짧은 서열이라면 본 발명에 적용가능한 것임은 물론이다.
본 발명의 일실시예의 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법에 있어서, 상기 표적 유전자는 STR (short tandem repeat) 및/또는 단일염기다형성 부위를 포함할 수 있다.
본 발명의 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법은,
(a) 하기 구조식 1의 정방향 융합 프라이머 및 이에 대응하는 하기 구조식 2의 역방향 융합 프라이머 쌍을 준비하는 단계와,
구조식 1
Figure PCTKR2013005055-appb-I000003
구조식 2
Figure PCTKR2013005055-appb-I000004
(상기 구조식 1 및 상기 구조식 2에서 X, X'는 분석대상이 되는 모든 시료 내에 존재하는 적어도 하나의 표적 유전자에 특이적인 유전자 서열과는 상동성이 없는 비상동성의 프라이머 서열로 구성하고, Y는 모든 시료에 대한 상기 표적 유전자의 유전자형을 동시에 분석할 때 각각의 시료를 식별해 주는 MID (Multiflex identifier) 서열로 구성하며, Z, Z'는 상기 표적 유전자에 특이적인 유전자 서열과 상보적으로 결합하는 표적 유전자 특이적인 프라이머 서열로 구성하고, n은 분석대상이 되는 시료의 개수와 일치하는 정수로서 2와 같거나 2보다 큰 정수이며, m은 표적 유전자의 개수와 일치하는 정수로서 1과 같거나 1보다 큰 정수임)
(b) 상기 (a) 단계에서 준비된 융합 프라이머 쌍을 이용하여 분석대상이 되는 모든 시료 내에 존재하는 적어도 하나의 표적 유전자를 증폭하여 각 시료 별로 상기 적어도 하나의 표적 유전자에 대한 PCR 증폭산물을 수득하는 단계와,
(c) 상기 (b) 단계에서 소모되지 않은 융합 프라이머들과 이들로부터 생성된 프라이머 이량체들을 제거하기 위해 상기 수득된 PCR 증폭산물에 대해 젤 추출을 수행하여 정제하는 단계와,
(d) 상기 (c) 단계에서 정제된 PCR 증폭산물을 주형으로 하여 에멀젼 PCR (emPCR)을 수행하는 단계와,
(e) 상기 (d) 단계에서 수득된 에멀젼 PCR 증폭산물에 대한 시퀀싱 결과로부터 각 시료 별로 상기 적어도 하나의 표적 유전자의 서열을 결정하는 단계와,
(f) 상기 (e) 단계에서 결정된 상기 적어도 하나의 표적 유전자의 서열로부터 각 시료 별로 표적 유전자의 유전자형을 분석하는 단계를 포함한다.
본 발명의 일실시예의 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법에 있어서, 상기 표적 유전자는 STR (short tandem repeat) 및/또는 단일염기다형성 부위를 포함하고, 상기 (f) 단계에서는 STR (short tandem repeat)의 반복 개수를 확인하고 STR의 전후에 존재하는 단일염기다형성 존재 여부를 확인하는 것을 특징으로 한다.
본 발명의 일실시예의 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법에 있어서, 상기 구조식 1 및/또는 상기 구조식 2의 융합 프라이머의 길이는 50 b.p. 내지 70 b.p.의 범위인 것이 바람직하다.
또한, 본 발명의 일실시예의 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법에 있어서, 상기 구조식 1 및/또는 상기 구조식 2에서 Y는 서열번호 1 내지 서열번호 132로 구성된 군으로부터 선택된 MID 서열일 수 있으며, 이 경우 n값은 132가 된다. 그러나, 본 발명은 이에 제한되는 것이 아니며 시료를 식별해 줄 수 있는 10 b.p. 내지 20 b.p. 길이의 짧은 서열이라면 본 발명에 적용가능한 것임은 물론이다.
한편, 본 발명에 있어서, 상기 에멀젼 PCR에서 사용되는 비드 상에 결합된 한쪽 방향의 프라이머는 상기 구조식 1의 X 또는 상기 구조식 2의 X'와 동일하거나 상보적인 서열을 가질 수 있다. 또한, 상기 에멀젼 PCR 증폭산물에 대한 시퀀싱에서 사용되는 시퀀싱 프라이머는 상기 구조식 1의 X 또는 상기 구조식 2의 X'와 동일하거나 상보적인 서열을 가질 수 있다.
본 발명에 따르면, 한 번의 실험으로 다수의 시료에 대한 표적 유전자의 유전자형 분석을 수행하면서도 유전자형 분석결과와 각각의 시료의 매칭의 오류가 없도록 하는 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법을 제공할 수 있으며 수백에서 수천만에 이르는 대량 시료에 대한 유전자형 분석을 짧은 시간 내에 정확하게 할 수 있다.
또한, 본 발명에 따르면 한 번의 실험으로 대량 시료에 대한 특정 표적 유전자, 예를 들어 마커 유전자의 STR (short tandem repeat)의 반복 개수를 확인하면서도 동시에 STR의 전후에 존재하는 단일염기다형성(single nucleotide polymorphism; SNP)을 확인할 수 있고 이를 통해 새로운 마커 유전자의 발굴을 가능하게 하는 장점이 있다.
추가로, 본 발명에 따르면 차세대 염기서열 분석법에 있어서 앰플리콘(amplicon)의 준비과정에서 소모되지 않은 프라이머들의 이량체들이 증폭되어 시퀀싱 결과에 악영향을 미치는 문제를 방지할 수 있다.
도 1은 소(MID 1)의 개체 식별에 이용되는 마이크로새틀라이트 마커인 BM1824, BM2113, ETH10, ETH225, ETH3, INRA23, SPS115, TGLA122, TGLA126, TGLA227 및 TGLA53를 각각 특이적으로 증폭하기 위한 11개 쌍의 융합 프라이머 쌍의 서열을 도시하는 도면이다.
도 2는 소(MID 2)의 개체 식별에 이용되는 마이크로새틀라이트 마커인 BM1824, BM2113, ETH10, ETH225, ETH3, INRA23, SPS115, TGLA122, TGLA126, TGLA227 및 TGLA53를 각각 특이적으로 증폭하기 위한 11개 쌍의 융합 프라이머 쌍의 서열을 도시하는 도면이다.
도 3은 도 1 및 도 2의 융합 프라이머 쌍을 이용하여 멀티플렉스 PCR 증폭을 수행한 후 증폭 산물에 대한 전기영동 결과 사진(왼쪽)과, 각각의 융합 프라이머 쌍을 사용한 경우 정상적으로 PCR 증폭산물이 생성된 것을 나타내는 전기영동결과 사진(오른쪽)이다.
도 4는 본 발명의 실시예 3의 시료 라이브러리 정량 결과 그래프로서 Agilent 2100 바이오애널라이저(Agilent 2100 Bioanalyzer)를 이용하여 측정한 결과 그래프이다.
도 5는 본 발명의 실시예 5에서 TGLA227 마커에 대해 100% 일치도로 레퍼런스 염기서열과 시퀀싱된 각각의 판독 데이터를 정렬한 결과(좌측)와, 이와 같이 정렬된 그룹의 각각의 판독 데이터들의 분포를 정리한 도표 및 그래프(우측)이다.
도 6은 본 발명의 차세대 염기서열 분석법을 이용하여 BM1824, BM2113, ETH10, ETH225, SPS115 및 TGLA53 마커에 대한 STR의 반복개수(*표시 박스) 및 반복 서열의 앞뒤에 위치하는 개체간 단일염기다형성(**표시 박스)을 확인한 것을 나타내는 도면이다.
이하, 본 발명의 실시예에 기초하여 보다 상세하게 기술한다. 본 발명의 하기 실시예는 본 발명을 구체화하기 위한 것일 뿐 본 발명의 권리범위를 제한하거나 한정하는 것이 아님은 물론이다. 본 발명의 상세한 설명 및 실시예로부터 본 발명이 속하는 기술분야의 전문가가 용이하게 유추할 수 있는 것은 본 발명의 권리범위에 속하는 것으로 해석된다. 본 발명에 인용된 참고문헌들은 본 발명에 참고로서 통합된다.
실시예
이하에서 설명되는 실시예들에서는 소의 개체 식별에 이용되는 마이크로새틀라이트 마커인 BM1824, BM2113, ETH10, ETH225, ETH3, INRA23, SPS115, TGLA122, TGLA126, TGLA227 및 TGLA53에 대한 각 개체별 융합 프라이머쌍의 설계, 이러한 융합 프라이머쌍 및 차세대 염기서열 분석법을 이용하여 상기 마커들에 대한 각 개체별 시퀀싱 작업의 수행 그리고 시퀀싱 결과 분석 작업이 수행되었다. 그러나, 이는 본 발명의 설명의 편의를 위한 예시로서 이해되어야 하며 본 발명은 이밖에도 다양한 개체 또는 시료와, 다양한 표적 유전자에 대한 유전자형 분석에 적용가능한 기반기술로서 이해되어야 할 것이다.
실시예 1: 시료의 사전 증폭 (앰플리콘의 준비)
당업계에서 일반적으로 소의 개체 식별에 이용되는 마이크로새틀라이트 마커인 BM1824, BM2113, ETH10, ETH225, ETH3, INRA23, SPS115, TGLA122, TGLA126, TGLA227 및 TGLA53를 각각 특이적으로 증폭하기 위한 11개 쌍의 융합 프라이머 쌍(정방향 융합 프라이머 및 역방향 융합 프라이머 쌍)을 도 1 및 도 2에 도시된 바와 같이 각 개체 별(MID 1 및 MID 2)로 설계하여 준비하였다.
예를 들어, MID 1의 경우 서열번호 133 및 134의 융합 프라이머 쌍, 서열번호 135 및 136의 융합 프라이머 쌍, 서열번호 137 및 138의 융합 프라이머 쌍, 서열번호 139 및 140의 융합 프라이머 쌍, 서열번호 141 및 142의 융합 프라이머 쌍, 서열번호 143 및 144의 융합 프라이머 쌍, 서열번호 145 및 146의 융합 프라이머 쌍, 서열번호 147 및 148의 융합 프라이머 쌍, 서열번호 149 및 150의 융합 프라이머 쌍, 서열번호 151 및 152의 융합 프라이머 쌍 및 서열번호 153 및 154의 융합 프라이머 쌍을 준비하였다.
그리고, MID 2의 경우에는 서열번호 155 및 156의 융합 프라이머 쌍, 서열번호 157 및 158의 융합 프라이머 쌍, 서열번호 159 및 160의 융합 프라이머 쌍, 서열번호 161 및 162의 융합 프라이머 쌍, 서열번호 163 및 164의 융합 프라이머 쌍, 서열번호 165 및 166의 융합 프라이머 쌍, 서열번호 167 및 168의 융합 프라이머 쌍, 서열번호 169 및 170의 융합 프라이머 쌍, 서열번호 171 및 172의 융합 프라이머 쌍, 서열번호 173 및 174의 융합 프라이머 쌍 및 서열번호 175 및 176의 융합 프라이머 쌍을 준비하였다.
각 융합 프라이머 쌍은 "어댑터 프라이머 서열 부분 또는 시퀀싱 프라이머 서열 부분"과, 대량 개체(시료)의 마이크로새틀라이트 마커의 동시분석시 개체(시료) 식별을 위한 "바코드(barcode) 서열 또는 MID(Multiflex identifier) 서열"과, 마이크로새틀라이트 마커의 STR 부분을 포함하는 "STR 마커 특이적인 프라이머 서열 부분"을 포함하도록 설계되었다.
시중에서 입수가능한 호주산 쇠고기(MID 1)와 한우 쇠고기(MID 2)로부터 각각 추출된 gDNA에 대해 10개 쌍의 융합 프라이머 쌍을 함께 사용하여 아래의 표 1 및 표 2와 같은 멀티플렉스 PCR 반응 조건 및 조성에 따라 증폭반응을 수행하였다. 참고로, MID 1에 대한 융합 프라이머 쌍 중 서열번호 143 및 144의 융합 프라이머 쌍과, MID 2에 대한 융합 프라이머 쌍 중 서열번호 165 및 166의 융합 프라이머 쌍은 사용하지 않았다. 한편, 수득된 멀티플렉스 PCR 증폭산물은 추후 진행되는 차세대 염기서열 분석법의 에멀젼 PCR에서 주형으로 사용된다.
또한, 전술한 바와 같은 멀티플렉스 PCR 증폭이 정상적으로 수행되었는지 여부를 확인하기 위해 전기영동을 수행하여 밴드를 확인한 결과, 정상적으로 증폭산물이 생성되었음을 확인하였고(도 3의 좌측 전기영동결과 사진), 각 개체(MID 1 및 MID 2)로부터 각각 추출된 gDNA에 대해 전술한 바와 같은 10개 쌍의 융합 프라이머 쌍 중 각각의 융합 프라이머 쌍을 사용하여 PCR 증폭을 수행한 후 각각의 융합 프라이머 쌍에 해당되는 PCR 증폭산물이 생성되었는지 여부를 전기영동을 수행하여 확인한 결과, 각각의 융합 프라이머 쌍으로부터도 정상적으로 증폭산물이 생성되었음을 확인하였다(도 3의 우측 전기영동결과 사진).
표 1: PCR 반응조건
Figure PCTKR2013005055-appb-I000005
표 2: PCR 반응조성
Figure PCTKR2013005055-appb-I000006
참고로, 상기 표 2에 표시된 PCR 증폭용 프리믹스는 PCR 증폭 키트 제조사로부터 상업적으로 입수가능한 것으로서 예를 들어, PCR 버퍼, dNTP, TaKaRa Ex Taq TM으로 이루어진 것이다.
실시예 2: PCR 증폭산물의 젤 추출
실시예 1에서 수득된 PCR 증폭산물(앰플리콘)을 종래와 같이 차세대 염기서열 분석법에 사용되는 장비인 GS 쥬니어 티타늄 시퀀서(GS Junior Titanium sequencer)의 AMPure라는 키트로만 정제하게 되면, 앰플리콘 뿐만아니라 실시예 1의 PCR 반응에서 소모되지 않은 융합 프라이머들과 이들로부터 생성된 프라이머 이량체들도 함께 정제되는 문제가 발생함을 본 발명자들은 확인하였다. 이와 같이 앰플리콘을 주형으로 사용하기 위해 사전에 멀티플렉스 PCR을 수행하는 경우 앰플리콘 뿐만아니라 프라이머들의 이량체들이 생성되고, 이러한 프라이머 이량체들은 추후 수행되는 emPCR 과정에서 증폭되어 시퀀싱 결과에 악영향을 미치는 것을 확인하였다.
따라서, 이러한 문제점을 해결하기 위해 본 발명자들은 예의 연구를 거듭한 결과, 다음과 같은 젤 추출(gel extraction) 과정을 수행함으로써 융합 프라이머들 중 소모되지 않은 프라이머들의 이량체들이 증폭되는 문제와 이로 인한 시퀀싱 결과의 악영향 문제를 해결하였다. 실시예 1의 멀티플렉스 PCR 증폭반응 후 앰플리콘에 해당하는 증폭산물 만을 순수하게 분리하기 위하여 젤 추출 과정(gel extraction)을 진행하였다. 그리고, 이를 위해 마이크로원심분리를 이용한 QIAquick 젤 추출 키트(QIAquick Gel Extraction Kit using microcentrifuge) (Cat. no. 28704)를 사용하였다.
우선, 전기영동을 수행한 아가로즈 젤(Agarose gel)에서 원하는 DNA 절편을 잘라내어 50℃에서 젤을 녹인 후 이소프로판올을 혼합하였다. 그리고, QIAquick 젤 추출 키트의 제조사가 제공하는 완충용액, 스핀 컬럼(spin column) 및 수집 튜브(collection tube)를 이용하여 원심분리를 수행한 후 제조사가 제공하는 완충용액과 에탄올(96%~100%)이 함유된 세척용 버퍼로 세척과정을 수행하였다. 그런 다음, 용출 버퍼(elution buffer) (제조사가 제공하는 용출 버퍼 또는 H2O)를 이용하여 인큐베이션을 수행한 후 정제된 DNA를 얻어 정제된 앰플리콘 시료를 준비하였다. 준비된 시료는 사용하기 전까지 -20℃에서 보관하였다.
실시예 3: 시료 라이브러리 정량(Library Quantitation)
실시예 2의 젤 추출(Gel extraction) 과정을 통해 분리 정제된 DNA 앰플리콘시료의 정량을 위해서 다음의 과정을 수행하였다.
젤-다이 믹스(Gel-dye mix)를 사용하기 전에 상온에서 30분간 온도평형을 유지한 후 칩 프라이밍 스테이션(chip priming station)에 새로운 고감도 DNA 칩(High sensitivity DNA chip)을 위치시켰다. 그리고 젤-다이 믹스(gel-dye mix)를 처음 지정된 위치에 분주하였다.
플런저(plunger)를 1㎖에 위치시킨 후 칩 프라임 스테이션을 닫았다. 플런저를 클립(clip)이 있는 위치까지 내린 후 클립(clip)을 이용하여 고정하였다. 60초간 기다린 후 클립(clip)을 개방하였다. 그리고 나서 5초간 더 기다린 후 플런저를 1㎖에 위치시켰다.
칩 프라이밍 스테이션을 개방하고 나머지 지정된 위치에 젤-다이 믹스를 분주하였다. 마커(marker)를 모든 시료(sample)와 래더 웰(ladder well)에 분주하여 비어있는 웰(well)이 없도록 하였다. 그리고 나서 고감도 DNA 래더(High sensitivity DNA ladder)를 지정된 위치에 분주하였고, 11개 시료의 각각의 웰에 시료(sample) 또는 마커(marker)를 분주하였다.
그런 다음, 칩(chip)을 IKA 볼텍스 믹서(IKA vortex mixer)에 위치시키고 2400 rpm에서 1분 동안 반응시켰다. Agilent 2100 바이오애널라이저(Agilent 2100 Bioanalyzer)를 이용하여 5분 안에 측정을 시작하였다. 측정 결과는 도 4에 도시된 바와 같다.
실시예 4: 에멀젼 PCR (emPCR) 증폭 과정 수행
차세대 염기서열 분석법에 사용되는 장비인 GS 쥬니어 티타늄 시퀀서가 제공하는 emPCR 시약, GS 쥬니어 티타늄 emPCR 오일 및 브레이킹 키트(Breaking Kit)를 이용하여 다음과 같이 emPCR 증폭을 수행하였다.
(1) 시약 및 에멀젼 오일 준비
키트 내용물을 개봉하여 모든 시약은 볼텍싱한 후 사용하였다. 엔자임 믹스(Enzyme Mix)와 PPiase(peptidyl-prolyl isomerase) 튜브는 -15℃ ~ -25℃에서 보관하였다. 볼텍싱한 제조사 키트의 첨가제(Additive)는 55℃에서 5분간 용해시키고 용해가 되지 않는 물질이 있을 경우 원심분리한 후 상층액만을 이용하였다. 엔자임(enzyme)은 -15℃ ~ -25℃에서 보관하였고, 다른 내용물은 상온에서 보관하였다. 제조사 키트의 Mock Mix와 Molecular Biology Grade Water를 혼합하여 1× Mock Mix를 만든 다음, 이를 에멀젼 오일(emulsion oil)과 혼합하였다. 그리고 이러한 에멀젼 오일 혼합물을, 410 ㎕의 Molecular Biology Grade Water, 515 ㎕의 첨가제(Additive), 270 ㎕의 증폭 믹스(Amp Mix), 80 ㎕의 증폭 프라이머(Amp Primer), 70 ㎕의 엔자임 믹스(Enzyme Mix) 및 2 ㎕의 PPiase가 혼합된 라이브 증폭 믹스(Live Amp Mix)와 혼합한 후 얼음에서 보관하였다.
(2) 시료 DNA 라이브러리 포획
세척 버퍼와 Molecular Biology Grade Water를 혼합하여 1× 세척 버퍼를 만들었다. 그리고 포획 비드(Capture bead)를 준비하고, 이를 앞서 만들어 놓은 1× 세척 버퍼로 세척하였다. 그리고, 실시예 1 및 실시예 2를 통해 수득된 앰플리콘, 즉 시료 DNA 라이브러리 중 사용될 DNA 라이브러리의 양을 포획 비드를 기준으로 계산하고 계산된 양 만큼의 DNA 라이브러리를 포획 비드에 혼합하여 앰플리콘이 주형으로서 포획 비드 상의 DNA에 의해 포획되도록 하였다. 참고로, 포획 비드 상의 DNA는 실시예 1에서 설명한 융합 프라이머의 어댑터 프라이머 서열 부분(또는 시퀀싱 프라이머 서열 부분)에 대응한다.
(3) 에멀션화(Emulsification)
상기 (2)번 과정에서 준비한 포획 비드가 들어있는 튜브에 상기 (1)번 과정에서 준비한 라이브 증폭 믹스(Live Amp Mix)의 에멀젼 오일 혼합물을 첨가한 후 포획 비드와 에멀젼 오일 혼합물을 잘 섞어주어 에멀션화시켰다.
(4) 증폭
상기 (3)번 과정에서 준비된 에멀션화된 혼합 용액을 8-스트립 캡 튜브(eight 8-strip cap tubes) 또는 96-웰 플레이트 (~64 웰 정도)에 100 ㎕씩 용액이 마르지 않는 범위에서 천천히 분주하고 캡(cap)을 이용하여 밀봉한 후 8-스트립 캡 튜브 또는 96-웰 플레이트를 PCR 장치(thermocycler) 내에 위치시키고 PCR 증폭을 수행하였다. 즉, 94℃에서 4분(1사이클), 94℃에서 30초(50사이클), 58℃에서 4.5분, 68℃에서 30초, 10℃에서 반응종료의 과정을 반복수행하였으며, 전체 증폭을 위해서는 최대 6시간 정도가 소요되었다.
(5) DNA-비드 회수 (Bead Recovery)
8-스트립 캡 튜브(eight 8-strip cap tubes) 또는 96-웰 플레이트 (~64 웰 정도)에서 증폭된 에멀젼 혼합물을 모아 한 곳에 보관하였다. 100 ㎕의 이소프로판올을 각각의 웰 분주하여 웰에 남아 있는 에멀젼 혼합물을 완전히 수집하였다. 이소프로판올, 에탄올 및 인핸싱 버퍼(enhancing buffer)와 원심분리를 이용하여 펠릿(pellet)을 남기는 방식으로 세척하고 세척이 끝난 DNA-비드는 튜브에 옮겼다.
(6) DNA-비드 현탁액
125 ㎕의 NaOH (10N)와 9.875㎖ Molecular Biology Grade Water를 혼합하여 멜팅 용액(Melt Solution)을 만들고 이를 DNA-비드 현탁액 튜브에 옮긴 후 2분 동안 상온에서 반응시켰다. 그런 다음, 반응물을 원심분리하여 상층액을 제거하고 45 ㎕의 어닐링 버퍼(Annealing Buffer)와 25 ㎕ 인리치 프라이머(Enrich Primer)를 혼합한 후 65℃에서 5분간 반응시키고 이후에 2분간 얼음에서 반응시켰다.
인핸싱 버퍼(Enhancing Buffer)를 이용하여 상기 DNA-비드 현탁 튜브(인리치먼트 튜브)를 세척한 후 펠릿을 인핸싱 버퍼(Enhancing Buffer)에 녹여 다음 실험까지 보관하였다.
인리치먼트 비드들(Enrichment Beads)이 충분히 섞이게 한 후 MPC(Magnetic Particle Concentrator)에 위치시켜 인리치먼트 비드 펠릿(Enrichment Beads pellet)을 만든 후 비드가 마르지 않도록 상층액을 제거하고 인핸싱 버퍼(Enhancing Buffer)를 첨가하였다. 수득된 비드들을 다시 MPC에 위치시켜 펠릿을 만든 후 비드가 마르지 않도록 상층액을 제거하고 인핸싱 버퍼(Enhancing Buffer)를 첨가하여 섞어주었다.
세척된 인리치먼트 비드들을 앞서 준비한 인리치먼트 튜브에 섞어주었다. 그리고, LabQuake를 이용하여 상온에서 5분간 회전시키며 반응시킨 후 상기 인리치먼트 튜브를 MPC에 위치시켜 펠릿을 생성한 다음, 상층액을 제거하고 갈색의 인리치먼트 비드들이 마르지 않도록 유지하였다. 그런 다음, 하얀색의 DNA-비드가 나오지 않을 때까지 계속적으로 세척한 후, MPC에서 인리치먼트 튜브를 분리하고 인리치먼트 튜브에 멜팅 용액(Melt Solution)을 첨가하였다.
인리치먼트 튜브를 MPC에 다시 위치시켜 펠릿이 생성되도록 하였고 상층액을 새로운 1.7 ㎖ 튜브에 옮겼다. 700 ㎕의 멜팅 용액(Melt Solution)을 원래의 인리치먼트 튜브에 첨가하여 충분히 섞어준 후 인리치먼트 튜브를 다시 한 번 MPC에 위치시켜 펠릿을 생성시켰다. 상층액을 인리치먼트 튜브에 같이 모아 주었다.
MPC에서 분리된 인리치먼트 튜브를 원심분리하여 상층액을 제거한 후 어닐링 버퍼(Annealing Buffer)를 첨가한 다음 원심분리하여 상층액을 제거하는 세척 과정을 수행하였다. 세척 과정 완료 후 인리치먼트 튜브에 어널링 버퍼(Annealing Buffer)를 첨가하여 섞어주었다.
(7) 시퀀싱 프라이머 어닐링
GS 쥬니어 티타늄 시퀀서가 제공하는 시퀀싱 프라이머를 상기 (6)번 과정에서 준비된 인리치먼트 튜브에 첨가하여 섞어준 후 65℃에서 5분간 반응시키고 이후에 2분간 얼음에서 반응시켰다. 참고로, 시퀀싱 프라이머는 실시예 1에서 설명한 융합 프라이머의 어댑터 프라이머 서열 부분(또는 시퀀싱 프라이머 서열 부분)과 동일한 서열을 갖거나 상보적인 서열을 가질 수 있다.
그리고 나서, 인리치먼트 튜브에 어닐링 버퍼(Annealing Buffer)를 첨가하고 충분히 섞어준 후 원심분리하여 상층액을 제거하였다. 다시 어닐링 버퍼(Annealing Buffer)를 첨가하고 충분히 섞어준 후 원심분리하여 상층액을 제거하였다.
시퀀싱을 위해서는 500,000개 정도의 비드들이 필요하기 때문에 GS 쥬니어 비드 카운터(GS Junior Bead Counter)를 이용하여 비드의 개수를 측정하였다. 이를 위해 인리치먼트 튜브를 GS 쥬니어 비드 카운터 바닥의 구멍에 위치시켰다. 눈의 위치를 GS 쥬니어 비드 카운터의 창의 왼쪽에 고정하여 창에서 보이는 비드의 높이를 측정하여 비드를 계수하였다. 한편, 시퀀싱을 위해 준비된 시료는 2℃ ~ 8℃에서 약 2주간 보관 가능하다.
실시예 5: 시퀀싱 (Sequencing) 및 결과 분석
GS 쥬니어 티타늄 시퀀싱 키트(GS Junior Titanium Sequencing Kit)를 이용하여 GS 쥬니어 티타늄 시퀀싱 장비(GS Junior Titanium Sequencing machine)의 지정된 순서 (Sequencing Method Manual, GS Junior Titanium Series)를 따라 시퀀싱을 수행하였다. 이러한 GS 쥬니어 티타늄 시퀀서의 시퀀싱은 파이로 시퀀싱(pyrosequencing) 방법을 이용하여 수행될 수 있다(Michael L. Metzker, Aapplications of next-generation sequencing; Sequencing technologies the next generation, Nature Reviews Genetics, Vol.11, pp31-46, January. 2010).
상기와 같이 수행된 시퀀싱 결과로부터 얻은 각 개체(MID 1 및 MID 2)의 염기서열 데이터(sequence reads)를 전술한 바와 같은 BM1824, BM2113, ETH10, ETH225, ETH3, INRA23, SPS115, TGLA122, TGLA126, TGLA227 및 TGLA53의 마이크로새틀라이트 마커들에 대한 레퍼런스 염기서열(reference sequence)과 비교하는 작업인 매핑 작업을 수행하였다. 한편, 실제 분석에서는 각 개체 간의 일치도를 분석하는 것이기 때문에 레퍼런스 염기서열을 이용하지 않고 각 개체의 마이크로새틀라이트 마커들에 대한 시퀀싱 결과를 직접 비교하여 일치도를 확인하는 방식을 채택할 수도 있다.
본 실시예에서는 일부 마커의 경우(INRA23, TGLA126) 레퍼런스 염기서열 정보가 공개되어 있지 않아 상기 시퀀싱 결과와 마커의 레퍼런스 염기서열과의 매핑을 수행하지 않았고, 나머지 9개의 마커에 대해서만 레퍼런스 염기서열과의 매핑을 수행하였다. 즉, 본 실시예에서는 BM1824(서열번호 177), BM2113(서열번호 178), ETH10(서열번호 179), ETH225(서열번호 180), ETH3(서열번호 181), SPS115(서열번호 182), TGLA122(서열번호 183), TGLA227(서열번호 184) 및 TGLA53(서열번호 185)의 9개 마커에 대한 레퍼런스 염기서열과, 전술한 바와 같은 시퀀싱 결과로부터 얻은 각 개체(MID 1 및 MID 2)의 상기 9개 마커들에 대한 염기서열 데이터들을 정렬시켜 매핑을 진행하였다.
예시로서, 레퍼런스 염기서열과의 80% 일치도 및 100% 일치도로 매핑을 수행하였는데, 그 결과 TGLA53 마커에 대한 매핑 결과가 나오지 않았으며 100% 일치도로 매핑을 할 경우 MID-1 개체에 대한 매핑 실험결과가 나오지 않았다. 반면에, 80%의 일치도로 매핑을 수행하면 MID 1 및 MID 2 개체 모두에 대해 아래와 표 3 및 표 4와 같은 매핑 결과를 얻을 수 있었다.
표 3 100% 일치도 매핑 결과 (MID-1 시료의 경우)
Marker Consensus length Total read count Average coverage Reference length 비고
BM1824_#1 180 549 253.42 180 *
BM2113_#2 97 88 38.59 153 .
ETH10_#3 135 122 48.40 224 .
ETH225_#4 143 3016 2,379.42 149 *
ETH3_#5 123 2809 1,386.45 122 .
SPS115_#7 225 288 157.00 245 *
TGLA122_#8 142 135 69.83 142 .
TGLA227_#10 92 4043 2,597.79 90 *
TGLA53_#11 0 0 0.0 155 .
표 4 100% 일치도 매핑 결과 (MID-2 시료의 경우)
Marker Consensus length Total read count Average coverage Reference length 비고
BM1824_#1 180 685 311.16 180 *
BM2113_#2 98 113 56.30 153 .
ETH10_#3 207 179 73.37 224 .
ETH225_#4 146 7245 5,550.64 149 *
ETH3_#5 122 4602 2,208.02 122 *
SPS115_#7 231 1176 633.63 245 *
TGLA122_#8 141 50 27.48 142 .
TGLA227_#10 92 1899 1,256.50 90 *
TGLA53_#11 102 1 0.67 155 .
한편, TGLA227 마커에 대해 100% 일치도로 레퍼런스 염기서열과 시퀀싱된 각각의 판독 데이터를 정렬하면 도 5의 좌측의 결과가 도출되었고, 이와 같이 정렬된 그룹의 각각의 판독 데이터들의 분포를 정리하면 도 5의 우측과 같은 결과가 얻어졌다.
또한, 전술한 바와 같은 본 발명의 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법에 따르면, 마이크로새틀라이트 마커들에 대해 각 개체 별로 얻은 서열데이터로부터는 STR(short tandem repeat)의 반복개수를 확인할 수 있을 뿐만아니라 반복 서열의 앞뒤에 위치하는 개체간 단일염기다형성(SNP)도 확인할 수 있다. 즉, 도 6에 도시된 바와 같이, BM1824, BM2113, ETH10, ETH225, SPS115 및 TGLA53 마커에 대한 본 발명의 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법에 따른 서열분석 결과로부터는 STR의 반복개수(*표시 박스)를 확인할 수 있을 뿐만아니라 반복 서열의 앞뒤에 위치하는 개체간 단일염기다형성(**표시 박스)도 확인할 수 있다.
따라서, 본 발명의 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법은 한 번의 실험으로 대량 시료에 대한 특정 표적 유전자, 예를 들어 마커 유전자의 STR의 반복 개수를 확인하면서도 동시에 STR의 전후에 존재하는 단일염기다형성을 확인할 수 있고 이를 통해 새로운 마커 유전자의 발굴을 가능하게 하는 장점이 있다.
이상 본 발명을 상기 실시예를 들어 설명하였으나, 본 발명은 이에 제한되는 것이 아니다. 당업자라면 본 발명의 취지 및 범위를 벗어나지 않고 수정, 변경을 할 수 있으며 이러한 수정과 변경 또한 본 발명에 속하는 것임을 알 수 있을 것이다.

Claims (11)

  1. 하기 구조식 1을 갖는 융합 프라이머 설계방법으로서,
    구조식 1
    Figure PCTKR2013005055-appb-I000007
    상기 구조식 1에서 X는 분석대상이 되는 모든 시료 내에 존재하는 적어도 하나의 표적 유전자에 특이적인 유전자 서열과는 상동성이 없는 비상동성의 프라이머 서열로 구성하고,
    Y는 모든 시료에 대한 상기 표적 유전자의 유전자형을 동시에 분석할 때 각각의 시료를 식별해 주는 MID (Multiflex identifier) 서열로 구성하며,
    Z는 상기 표적 유전자에 특이적인 유전자 서열과 상보적으로 결합하는 표적 유전자 특이적인 프라이머 서열로 구성하고,
    n은 분석대상이 되는 시료의 개수와 일치하는 정수로서 2와 같거나 2보다 큰 정수이며, m은 표적 유전자의 개수와 일치하는 정수로서 1과 같거나 1보다 큰 정수인 것을 특징으로 하는 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법.
  2. 제1항에 있어서,
    상기 구조식 1의 융합 프라이머가 정방향 융합 프라이머이면 이와 쌍을 이루는 역방향 융합 프라이머가 하기 구조식 2를 갖고, 상기 구조식 1의 융합 프라이머가 역방향 융합 프라이머이면 이와 쌍을 이루는 정방향 융합 프라이머가 하기 구조식 2를 갖는 것을 특징으로 하고,
    구조식 2
    Figure PCTKR2013005055-appb-I000008
    상기 구조식 2에서 X', Y 및 Z'의 정의는 상기 구조식 1의 X, Y 및 Z와 동일하며, 상기 구조식 2의 n 및 m 값도 상기 구조식 1의 n 및 m 값과 동일한 것을 특징으로 하는 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법.
  3. 제1항 또는 제2항에 있어서,
    상기 구조식 1 또는 상기 구조식 2의 융합 프라이머의 길이는 50 b.p. 내지 70 b.p.의 범위인 것을 특징으로 하는 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법.
  4. 제1항 또는 제2항에 있어서,
    상기 구조식 1 또는 상기 구조식 2에서 Y는 서열번호 1 내지 서열번호 132로 구성된 군으로부터 선택된 MID 서열인 것을 특징으로 하는 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법.
  5. 제1항 또는 제2항에 있어서,
    상기 표적 유전자는 STR (short tandem repeat), 단일염기다형성 부위, 또는 STR 및 단일염기다형성 부위 모두를 포함하는 것을 특징으로 하는 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법.
  6. (a) 하기 구조식 1의 정방향 융합 프라이머 및 이에 대응하는 하기 구조식 2의 역방향 융합 프라이머 쌍을 준비하는 단계와,
    구조식 1
    Figure PCTKR2013005055-appb-I000009
    구조식 2
    Figure PCTKR2013005055-appb-I000010
    (상기 구조식 1 및 상기 구조식 2에서 X, X'는 분석대상이 되는 모든 시료 내에 존재하는 적어도 하나의 표적 유전자에 특이적인 유전자 서열과는 상동성이 없는 비상동성의 프라이머 서열로 구성하고, Y는 모든 시료에 대한 상기 표적 유전자의 유전자형을 동시에 분석할 때 각각의 시료를 식별해 주는 MID (Multiflex identifier) 서열로 구성하며, Z, Z'는 상기 표적 유전자에 특이적인 유전자 서열과 상보적으로 결합하는 표적 유전자 특이적인 프라이머 서열로 구성하고, n은 분석대상이 되는 시료의 개수와 일치하는 정수로서 2와 같거나 2보다 큰 정수이며, m은 표적 유전자의 개수와 일치하는 정수로서 1과 같거나 1보다 큰 정수임)
    (b) 상기 (a) 단계에서 준비된 융합 프라이머 쌍을 이용하여 분석대상이 되는 모든 시료 내에 존재하는 적어도 하나의 표적 유전자를 증폭하여 각 시료 별로 상기 적어도 하나의 표적 유전자에 대한 PCR 증폭산물을 수득하는 단계와,
    (c) 상기 (b) 단계에서 소모되지 않은 융합 프라이머들과 이들로부터 생성된 프라이머 이량체들을 제거하기 위해 상기 수득된 PCR 증폭산물에 대해 젤 추출을 수행하여 정제하는 단계와,
    (d) 상기 (c) 단계에서 정제된 PCR 증폭산물을 주형으로 하여 에멀젼 PCR (emPCR)을 수행하는 단계와,
    (e) 상기 (d) 단계에서 수득된 에멀젼 PCR 증폭산물에 대한 시퀀싱 결과로부터 각 시료 별로 상기 적어도 하나의 표적 유전자의 서열을 결정하는 단계와,
    (f) 상기 (e) 단계에서 결정된 상기 적어도 하나의 표적 유전자의 서열로부터 각 시료 별로 표적 유전자의 유전자형을 분석하는 단계를 포함하는 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법.
  7. 제6항에 있어서,
    상기 표적 유전자는 STR (short tandem repeat) 및 단일염기다형성 부위를 포함하고, 상기 (f) 단계에서는 STR (short tandem repeat)의 반복 개수를 확인하고 STR의 전후에 존재하는 단일염기다형성 존재 여부를 확인하는 것을 특징으로 하는 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법.
  8. 제6항 또는 제7항에 있어서,
    상기 융합 프라이머의 길이는 50 b.p. 내지 70 b.p.의 범위인 것을 특징으로 하는 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법.
  9. 제6항 또는 제7항에 있어서,
    Y는 서열번호 1 내지 서열번호 132로 구성된 군으로부터 선택된 MID 서열인 것을 특징으로 하는 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법.
  10. 제6항 또는 제7항에 있어서,
    상기 에멀젼 PCR에서 사용되는 비드 상에 결합된 한쪽 방향의 프라이머는 상기 구조식 1의 X 또는 상기 구조식 2의 X'와 동일하거나 상보적인 서열을 갖는 것을 특징으로 하는 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법.
  11. 제6항 또는 제7항에 있어서,
    상기 에멀젼 PCR 증폭산물에 대한 시퀀싱에서 사용되는 시퀀싱 프라이머는 상기 구조식 1의 X 또는 상기 구조식 2의 X'와 동일하거나 상보적인 서열을 갖는 것을 특징으로 하는 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법.
PCT/KR2013/005055 2012-06-19 2013-06-10 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법 그리고 이러한 융합 프라이머 및 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법 WO2013191400A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020120065805A KR101406720B1 (ko) 2012-06-19 2012-06-19 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법 그리고 이러한 융합 프라이머 및 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법
KR10-2012-0065805 2012-06-19

Publications (1)

Publication Number Publication Date
WO2013191400A1 true WO2013191400A1 (ko) 2013-12-27

Family

ID=49768958

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2013/005055 WO2013191400A1 (ko) 2012-06-19 2013-06-10 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법 그리고 이러한 융합 프라이머 및 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법

Country Status (2)

Country Link
KR (1) KR101406720B1 (ko)
WO (1) WO2013191400A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113166756A (zh) * 2019-02-13 2021-07-23 武汉华大医学检验所有限公司 用于三代测序建库的融合引物、建库方法、测序方法和建库试剂盒

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160024139A (ko) 2014-08-25 2016-03-04 바이오코아 주식회사 차세대 염기서열 분석법을 기반으로 하는 개인식별용 유전자 마커에 대한 유전자형 분석방법 및 이를 이용한 개인식별 방법
KR101677048B1 (ko) 2014-11-13 2016-11-18 대한민국 서양종꿀벌 특이적 초위성체 분자 마커 및 이를 이용한 서양종꿀벌 품종 판별 방법
KR101782806B1 (ko) * 2015-02-11 2017-09-28 주식회사 랩 지노믹스 차세대염기서열분석기술 기반의 고효율, 고해상도 조직적합성 형별 분석 방법 및 키트
KR101632881B1 (ko) 2015-11-26 2016-06-23 주식회사 지앤시바이오 차세대 염기서열분석법을 이용한 유전체 dna 말단 서열의 대량 분석방법
KR101665632B1 (ko) 2016-06-14 2016-10-14 주식회사 지앤시바이오 차세대 염기서열분석법을 이용한 cDNA 말단 서열의 대량 분석방법
KR101969905B1 (ko) * 2016-06-20 2019-04-17 한국표준과학연구원 염기서열분석을 위한 라이브러리용 프라이머 세트 및 라이브러리 제조방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009049889A1 (en) * 2007-10-16 2009-04-23 Roche Diagnostics Gmbh High resolution, high throughput hla genotyping by clonal sequencing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009049889A1 (en) * 2007-10-16 2009-04-23 Roche Diagnostics Gmbh High resolution, high throughput hla genotyping by clonal sequencing

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BICALHO, H. M. ET AL.: "Determination of ancestral proportions in synthetic bovine breeds using commonly employed microsatellite markers", GENET. MOL. RES., vol. 5, no. 3, 31 July 2006 (2006-07-31), pages 432 - 437 *
LEE, S. H. ET AL.: "Genetic polymorphisms of the bovine fatty acid binding protein 4 gene are significantly associated with marbling and carcass weight in Hanwoo (Korean Cattle)", ANIM. GENET., vol. 41, no. 4, August 2010 (2010-08-01), pages 442 - 444 *
LEE, S. H. ET AL.: "QTL and gene expression analyses identify genes affecting carcass weight and marbling on BTA14 in Hanwoo (Korean Cattle)", MAMM. GENOME, vol. 22, no. 9-10, October 2011 (2011-10-01), pages 589 - 601 *
VAN DE GOOR, L. H. ET AL.: "A proposal for standardization in forensic bovine DNA typing: allele nomenclature of 16 cattle-specific short tandem repeat loci", ANIM. GENET., vol. 40, no. 5, October 2009 (2009-10-01), pages 630 - 636 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113166756A (zh) * 2019-02-13 2021-07-23 武汉华大医学检验所有限公司 用于三代测序建库的融合引物、建库方法、测序方法和建库试剂盒
CN113166756B (zh) * 2019-02-13 2023-10-13 武汉华大医学检验所有限公司 用于三代测序建库的融合引物、建库方法、测序方法和建库试剂盒

Also Published As

Publication number Publication date
KR20130142523A (ko) 2013-12-30
KR101406720B1 (ko) 2014-06-13

Similar Documents

Publication Publication Date Title
WO2013191400A1 (ko) 차세대 염기서열 분석법을 위한 융합 프라이머의 설계방법 그리고 이러한 융합 프라이머 및 차세대 염기서열 분석법을 이용한 표적 유전자의 유전자형 분석방법
WO2016167408A1 (ko) 차세대 염기서열 분석기법을 이용한 장기 이식 거부 반응 예측 방법
Dalloul et al. Multi-platform next-generation sequencing of the domestic turkey (Meleagris gallopavo): genome assembly and analysis
EP3192900A1 (en) Method for constructing nucleic acid single-stranded cyclic library and reagents thereof
US20150065358A1 (en) Method for verifying bioassay samples
CN106350590A (zh) 用于高通量测序的dna文库构建方法
WO2017126943A1 (ko) 염색체 이상 판단 방법
US20210108263A1 (en) Methods and Compositions for Preparing Sequencing Libraries
WO2011115366A2 (ko) 대한민국 연안 규조류의 종 판별 방법과 이에 따른 규조류의 종 판별용 폴리뉴클레오티드 프로브, dna 칩 및 키트
Conte et al. Origin of a giant sex chromosome
CN113168889B (zh) 标签序列的检测方法
WO2019212138A1 (ko) 차세대 염기서열 분석을 위한 시료 간 교차 오염 탐색용 내부 검정 물질
CN108823294B (zh) 基于20个单倍群d的y-snp遗传标记的法医学复合检测试剂盒
CN108220473B (zh) 利用叶绿体InDel标记鉴别玉米S型胞质不育材料
CN112592981B (zh) 用于dna档案建库的引物组、试剂盒和方法
CN106399496A (zh) 高通量检测str遗传标记的建库试剂盒
Ahmed et al. Genome sequence based, comparative analysis of the fluorescent amplified fragment length polymorphisms (FAFLP) of tubercle bacilli from seals provides molecular evidence for a new species within the Mycobacterium tuberculosis complex
CN105296471B (zh) Dna标签、pcr引物及其应用
WO2019031867A1 (ko) 앰플리콘 기반 차세대 염기서열 분석기법에서 프라이머 서열을 제거하여 분석의 정확도를 높이는 방법
WO2018110940A1 (ko) 차세대 핵산 서열 분석을 위한 라이브러리의 복잡성을 측정하는 방법
WO2016129759A1 (ko) 차세대염기서열분석기술 기반의 고효율, 고해상도 조직적합성 형별 분석 방법 및 키트
CN112143816A (zh) 用于家族搜索和父系生物地理祖先推断的29-plex Y-STR分型系统
WO2019108014A1 (ko) 핵산 서열분석에서 uid 핵산 서열의 순결도를 측정하는 방법
WO2017090904A1 (ko) 차세대 염기서열분석법을 이용한 유전체 dna 말단 서열의 대량 분석방법
WO2022139121A1 (ko) 중합효소연쇄반응을 기반으로 한 표적 점 돌연변이의 검출 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13806859

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13806859

Country of ref document: EP

Kind code of ref document: A1