KR101447593B1 - Method for determining whole genome sequence of chloroplast, mitochondria or nuclear ribosomal DNA of organism using next generation sequencing - Google Patents

Method for determining whole genome sequence of chloroplast, mitochondria or nuclear ribosomal DNA of organism using next generation sequencing Download PDF

Info

Publication number
KR101447593B1
KR101447593B1 KR1020130167982A KR20130167982A KR101447593B1 KR 101447593 B1 KR101447593 B1 KR 101447593B1 KR 1020130167982 A KR1020130167982 A KR 1020130167982A KR 20130167982 A KR20130167982 A KR 20130167982A KR 101447593 B1 KR101447593 B1 KR 101447593B1
Authority
KR
South Korea
Prior art keywords
sequence
chloroplast
assembly
genome
complete
Prior art date
Application number
KR1020130167982A
Other languages
Korean (ko)
Inventor
양태진
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020130167982A priority Critical patent/KR101447593B1/en
Application granted granted Critical
Publication of KR101447593B1 publication Critical patent/KR101447593B1/en
Priority to PCT/KR2014/010999 priority patent/WO2015102226A1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

The present invention relates to a method for separately or simultaneously determining a whole genome sequence of a chloroplast, a mitochondria or a nuclear ribosomal DNA of an organism using next generation sequencing (NGS) and a computer readable medium to perform the same. The method includes: (a) determining a sequence of a whole genome of the organism using the NGS; (b) generating an NGS data set based on a genome coverage amount of the chloroplast using reads (sequence pieces) generated by determining the sequence in step (a); (c) assembling the reads of the NGS data set generated in step (b) using assembly software; (d) separating contigs including at least one sequence selected from the group consisting of sequences of a chloroplast, a mitochondria or a nuclear ribosomal DNA from contigs generated after assembling of step (c); and (e) connecting the contigs separated in step (d) using a sequence comparison program to correct an error in the assembly.

Description

차세대 시퀀싱 방법을 이용하여 생물체의 엽록체, 미토콘드리아 또는 핵 리보솜 DNA의 완전한 게놈 서열을 해독하는 방법{Method for determining whole genome sequence of chloroplast, mitochondria or nuclear ribosomal DNA of organism using next generation sequencing}Description: TECHNICAL FIELD The present invention relates to a method of decrypting a complete genome sequence of a chloroplast, mitochondrial or nuclear ribosomal DNA of an organism using a next generation sequencing method,

본 발명은 차세대 시퀀싱 방법을 이용하여 생물체의 엽록체, 미토콘드리아 또는 핵 리보솜 DNA의 완전한 게놈 서열을 해독하는 방법에 관한 것으로, 더욱 상세하게는 (a) 생물체의 전체 게놈을 대상으로 차세대 시퀀싱(NGS, next generation sequencing) 방법으로 염기서열을 해독하는 단계; (b) 상기 (a) 단계의 염기서열 해독을 통해 생성되는 리드(서열조각)들을 이용하여 엽록체 게놈 커버리지 양에 기초하여 NGS 데이터 세트를 생성하는 단계; (c) 상기 (b) 단계의 생성된 NGS 데이터 세트의 리드들을 어셈블리 소프트웨어를 사용하여 어셈블리하는 단계; (d) 상기 (c) 단계의 어셈블리 후 생성된 컨티그에서 엽록체, 미토콘드리아 및 핵 리보솜 DNA(nrDNA, nuclear ribosomal DNA) 서열로 이루어진 군으로부터 선택되는 하나 이상의 서열을 포함하는 컨티그들을 분리하는 단계; 및 (e) 상기 (d) 단계의 분리된 컨티그들을 염기서열 비교 프로그램을 이용하여 연결하고 어셈블리 중 발생한 오류를 수정하는 단계를 포함하는 것을 특징으로 하는 생물체의 엽록체, 미토콘드리아 또는 핵 리보솜 DNA의 완전한 게놈 서열을 단독으로 또는 동시에 해독하는 방법 및 상기 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체에 관한 것이다.The present invention relates to a method for decoding a complete genome sequence of a chloroplast, mitochondrial or nuclear ribosomal DNA of an organism using a next generation sequencing method, and more particularly, to a method for sequencing a whole genome of an organism (NGS, next decoding the nucleotide sequence by a genomic sequencing method; (b) generating an NGS data set based on the amount of chloroplast genome coverage using the leads (sequence fragments) generated through the nucleotide sequence decoding in the step (a); (c) assembling leads of the generated NGS data set of step (b) using assembly software; (d) isolating contigs comprising at least one sequence selected from the group consisting of chloroplasts, mitochondria, and nuclear ribosomal DNA (nrDNA) sequences in the contig produced after assembly in step (c); And (e) connecting the isolated contigs of step (d) using a nucleotide sequence comparison program and correcting errors occurring in the assembly, wherein the complete genome of the chloroplast, mitochondrial or nuclear ribosomal DNA of the organism A method for decoding the sequence alone or simultaneously, and a recording medium on which a computer-readable program for performing the above method is recorded.

식물세포는 핵, 엽록체, 미토콘드리아에 게놈(genome)을 가지고 있다. 엽록체는 광합성을 책임지는 주요 기관이며, 일반적으로 모계 유전을 한다. 엽록체 게놈의 크기는 120~217kb로 약 130개의 유전자가 적은 변이로 보존·유지되고 있는 반면 유전자와 유전자 사이(IGS, intergenic spacers)에는 비교적 많은 단일염기 다형성(SNP, single nucleotide polymorphism), 삽입-결실(InDel), 역위(inversion), 전이(translocation) 등의 변이를 가지고있다. 엽록체는 모든 식물세포에 원형으로 존재하며 한 세포 안에 수백 카피가 존재한다.Plant cells have a genome in the nucleus, chloroplast, and mitochondria. Chloroplasts are the main organ responsible for photosynthesis, and generally produce maternal heredity. The size of the chloroplast genome is 120 ~ 217kb, which is conserved and maintained as a mutation with about 130 genes. However, a relatively large number of single nucleotide polymorphism (SNP), insertional deletion (InDel), inversion, and translocation. The chloroplasts are circular in all plant cells and there are hundreds of copies in one cell.

핵 리보솜 DNA (nrDNA, nuclear ribosomal DNA)는 식물세포의 핵에 존재하며 종렬중복(tandem repeat) 형태로 한 두 개의 염색체 말단 부위에 집중하여 수천에서 수만 카피까지 반복하여 존재하는 인형성부위(NOR, nucleolar organizer region) 형태로 존재하며 양쪽 부모의 게놈이 재결합되어도 매우 빨리 균일화(homogenization)된다고 알려져 있다. 식물의 nrDNA는 식물 염기서열 중에 높은 보존 수준을 보이는데 리보솜 조립과 핵소체 형성의 유전자 규칙을 보존하기 때문이다. 고등식물에서는 4 개의 rRNA 구성요소가 5S nrDNA와 45S nrDNA으로 두 염색체 부위에 따로 존재하지만 몇몇 고대 식물, 은행나무, 이끼 및 조류(algae)의 경우는 45S nrDNA와 5S nrDNA가 동일 종렬(tandem) 단위에 공존하고 있다.Nuclear ribosomal DNA (nrDNA, nuclear ribosomal DNA) is present in the nucleus of plant cells and is concentrated in the tandem repeats of one or two chromosomes and repeats from thousands to tens of thousands of copies, nucleolar organizer region, and it is known that homogenization occurs very quickly even when the genomes of both parents are recombined. Plant nrDNA has a high conservation level in the plant nucleotide sequence because it conserves gene regulation of ribosome assembly and nucleoplasmogenesis. In higher plants, four rRNA components are located in two chromosomal regions, 5S nrDNA and 45S nrDNA, but in some ancient plants, ginkgo, moss and algae, 45S nrDNA and 5S nrDNA are in the same tandem unit .

45S nrDNA는 모든 종자식물에서 18S, 5.8S 그리고 25S/26S/28S 유전자 클러스터와 각 유전자 사이에 상대적으로 변이가 많은 ITS1(internal transcribed spacers 1) 및 ITS2를 포함하는 한 개의 45S 시스트론 단위로 구성된다. 각각의 45S 시스트론 단위는 다양한 크기의 IGS로 나누어지며 종렬 배열을 이루고 있다.The 45S nrDNA consists of one 45S cistron unit containing 18S, 5.8S and 25S / 26S / 28S gene clusters and internal transcribed spacers 1 (ITS1) and ITS2, which are relatively mutated between each gene in all seed plants . Each 45S cistron unit is divided into IGS of various sizes and arranged in a columnar arrangement.

엽록체 게놈과 nrDNA 염기서열은 필수적인 게놈 구성요소로 매우 잘 보존되어 있으며 세포질과 핵 게놈을 각각 대표하기 때문에 전체 식물 게놈의 다양성과 진화에 대한 중요한 단서를 제공하고 있다. 지금까지 식물에서 약 360개의 엽록체 전체 게놈 서열(GenBank Organelle Genome Resources, July 2013)과 오직 하나의 거의 완전한 45S nrDNA 염기서열(May 2013)이 GenBank(www.ncbi.nlm.nih.gov/genbank/)에 보고되었다. 일부 엽록체 게놈 염기서열은 식물체 게놈 시퀀싱 프로젝트에 의해 달성되었으나, 대부분의 엽록체 게놈 염기서열은 여러 독립적인 연구자들의 노력에 의해 만들어졌다. 즉, 대부분의 엽록체 게놈 서열은 BAC 클론에 삽입된 엽록체 게놈 DNA 조각의 염기서열을 밝히거나 참고 게놈 서열을 이용하여 PCR 워킹 및 시퀀싱 방법으로 완성하였다. 반면, 유전체 해독이 완료된 많은 식물에서도 45S nrDNA 단위가 클러스터를 이루고 있는 인형성부위(NOR, nucleolar organizer region) 영역은 아직까지 미완성 정보로 남아있다. 현재 보고된 완전한 45S nrDNA 단위 염기서열은 벼 염색체 9번의 말단 부위에 4.5개의 완전한 7,928bp의 45s rDNA 종렬 배열 서열이 BAC 클론 시퀀싱 방법에 의해 보고되어 있으며(GenBank No.OSJNBb0013K10; AP008245.2). 그 외 토마토(Solanum lycopersicum) 염색체 2번(Genbank No. AC215459.2), 3번(Genbank No. AC246968.1)에서 약 9kb의 완전한 nrDNA 단위가 어셈블리 되어 있다. 지금까지 45s rDNA 단위는 애기장대 염색체 2번 및 3번을 비롯하여 20여 종에서 보고가 되어 있다(ncbi blastn 기준).The chloroplast genome and nrDNA sequences are very well preserved as essential genomic components and represent important cytoplasmic and nuclear genomes, respectively, providing important clues to the diversity and evolution of the entire plant genome. To date, some 360 chloroplast genome sequences (GenBank Organelle Genome Resources, July 2013) and only one nearly complete 45S nrDNA sequence (May 2013) in plants have been published in GenBank (www.ncbi.nlm.nih.gov/genbank/) . Although some chloroplast genome sequences have been achieved by plant genome sequencing projects, most chloroplast genome sequences have been created by several independent researchers. In other words, most chloroplast genome sequences were obtained by identifying the nucleotide sequences of chloroplast genomic DNA fragments inserted into BAC clones or by PCR working and sequencing methods using reference genomic sequences. On the other hand, in many plants that have been genetically deciphered, the region of the nucleolar organizer region (NOR) in which 45S nrDNA units are clustered remains as yet incomplete information. The currently reported complete 45S nr DNA unit sequence has been reported by the BAC clone sequencing method (GenBank No.OSJNBb0013K10; AP008245.2) in a complete sequence of 45s rDNA sequence of 7,928 bp at the terminal region of chromosome 9 of rice. In addition, a complete nrDNA unit of about 9 kb was assembled on chromosome 2 (Genbank No. AC215459.2) and No. 3 (Genbank No. AC246968.1) of Solanum lycopersicum . Up to now, the 45s rDNA unit has been reported in over 20 species including the Arabidopsis chromosome 2 and 3 (based on ncbi blastn).

최근에 454 GS-FLX, SOLiD 및 Illumina사의 염기서열 장비를 이용한 차세대 시퀀싱(NGS, next generation sequencing) 방법으로 엽록체 게놈을 완성한 일부 보고들이 있지만 대부분 엽록체 DNA만을 순수 분리하여 염기서열 분석 후 참고 가이드 매핑을 이용하여 de novo 서열 어셈블리를 수행한 후 많은 갭을 채우기 위해 추가적인 PCR 및 시퀀싱을 통해 완성되어 여전히 많은 노력과 시간을 요하고 있다. 최근에는 두 종의 이끼에서 GS-FLX 플랫폼 기반의 전체 게놈 서열을 이용하여 nrDNA 단위와 부분적인 소기관 게놈 서열을 동시에 생산하는 방법을 소개하였다(Liu et al., 2013, Mol Phylogenet Evol, 66:1089-1094). 그러나 소개된 대부분의 NGS를 이용하는 접근방식은 고효율(high throughput) 적용이 어렵고 많은 시간과 노력이 요구되었다.Recently, there have been some reports on the completion of the chloroplast genome using the next generation sequencing method (NGS) using 454 GS-FLX, SOLiD and Illumina's nucleotide sequencing equipment. However, most of the chloroplast DNAs are purely isolated, Which is then completed with additional PCR and sequencing to perform the de novo sequence assembly and fill many gaps, which still requires much effort and time. Recently, we have introduced a method to simultaneously produce nrDNA units and partial organelle genome sequences using the entire genome sequence based on the GS-FLX platform in two species of moss (Liu et al., 2013, Mol Phylogenet Evol, 66: 1089 -1094). However, most of the introduced NGS approach is difficult to apply high throughput and requires a lot of time and effort.

NGS 기술은 시간과 비용을 크게 줄여서 염기서열을 분석할 수 있지만 대규모 데이터로부터 의미있는 완전한 데이터를 얻는 것이 매우 중요한 과제이다. 따라서 우리는 일반적으로 준비되는 전체 게놈 DNA로부터 Illumina 페어드 엔드 서열(paired end sequences)을 생산하고 1Gbp 미만의 적은 양을 이용하여 완벽한 엽록체 게놈 서열과 완벽한 nrDNA 단위를 동시에 얻을 수 있는 매우 효과적인 방법을 개발하였다. 또한 어셈블리 과정에서 나타날 수 있는 오류발생 형태를 모두 분석하고 해결하는 방법을 제시하여 추가적인 PCR이나 ABI 시퀀싱 과정을 거의 배제하고 완전한 서열을 완성할 수 있으며 한 레인의 분석으로 50종 이상의 분석이 가능함을 제시하고 있다. 이 방법은 이끼나 지의류 등 하등식물에서부터 유전체 크기가 매우 큰 양파나 백합에도 적용이 가능함을 확인하여 모든 식물계(plant kingdom)를 대상으로 종의 다양성 분석 및 진화의 기원을 탐구하는데 획기적인 수단으로 활용될 수 있으리라 기대한다. 더불어 전체 종내 다양한 계통의 엽록체와 nrDNA를 완성함으로써 계통간 차이까지 식별이 가능하여 품종식별 마커, 생물주권 보호, 육종가의 권리보호 등 실용적인 활용 방법 또한 제시하고 있다.NGS technology is able to analyze nucleotide sequences by greatly reducing time and cost, but obtaining meaningful complete data from large-scale data is a critical challenge. Therefore, we have developed a highly efficient method to produce paired end sequences from whole genomic DNA that is generally prepared and to obtain a complete chloroplast genome sequence and complete nrDNA units simultaneously using a small amount less than 1 Gbp Respectively. In addition, it suggests a method to analyze and resolve all types of errors that may occur in the assembly process, so that it is possible to complete the complete sequence without any additional PCR or ABI sequencing process, and it is possible to analyze more than 50 species by analyzing a lane . This method can be applied to onions and lilies of very large genomes, such as lichens and lichens, and can be used as a breakthrough in exploring species diversity and the origins of evolution in all plant kingdoms I expect to be. In addition, various species of chloroplasts and nrDNAs can be identified to identify differences between strains, thus suggesting practical applications such as breed identification markers, protection of biological sovereignty, and protection of breeder's rights.

한편, 한국공개특허 제2013-0134269호에는 '차세대염기서열기반 SNP 유전형 분석을 이용한 초고밀도 유전자 지도 작성기법'이 개시되어 있고, 한국등록특허 제1313087호에는 'NGS를 위한 서열 재조합 방법 및 장치'가 개시되어 있으나, 본 발명의 차세대 시퀀싱 방법을 이용하여 생물체의 엽록체, 미토콘드리아 또는 핵 리보솜 DNA의 완전한 게놈서열을 해독하는 방법에 대해서는 기재된 바가 없다.Korean Patent Laid-Open Publication No. 2013-0134269 discloses an 'ultra high density gene mapping technique using a next generation nucleotide sequence-based SNP genotype analysis', Korean Patent No. 1313087 discloses 'a method and apparatus for recombination of sequences for NGS' There has been no description of a method for decoding a complete genome sequence of chloroplast, mitochondrial or nuclear ribosomal DNA of an organism using the next generation sequencing method of the present invention.

본 발명은 상기와 같은 요구에 의해 도출된 것으로서, 본 발명자들은 광합성 생물체의 소량의 게놈 DNA를 이용하여 차세대 시퀀싱(NGS)으로 염기서열을 해독하고, 상기 NGS 데이터 중 특정양의 데이터 세트만을 이용하여 효율적으로 어셈블리를 수행하고, 상기 어셈블리 결과를 통해 생물체의 엽록체, 미토콘드리아 또는 핵 리보솜 DNA의 완전한 서열을 동시에 또는 독립적으로 신속 정확하게 완성하는 방법을 개발함으로써, 본 발명을 완성하였다.DISCLOSURE OF THE INVENTION The present invention has been made in view of the above-mentioned needs, and the present inventors have discovered that by using a small amount of genomic DNA of a photosynthetic organism to decode a nucleotide sequence with next generation sequencing (NGS) The present invention has been accomplished by carrying out an efficient assembly and developing a method for quickly and accurately completing the complete sequence of an organism's chloroplast, mitochondrial or nuclear ribosomal DNA simultaneously or independently.

상기 과제를 해결하기 위해, 본 발명은In order to solve the above problems,

(a) 생물체의 전체 게놈을 대상으로 차세대 시퀀싱(NGS, next generation sequencing) 방법으로 염기서열을 해독하는 단계;(a) decoding a nucleotide sequence of a whole genome of an organism by a next generation sequencing (NGS) method;

(b) 상기 (a) 단계의 염기서열 해독을 통해 생성되는 리드(서열조각)들을 이용하여 엽록체 게놈 커버리지 양에 기초하여 NGS 데이터 세트를 생성하는 단계;(b) generating an NGS data set based on the amount of chloroplast genome coverage using the leads (sequence fragments) generated through the nucleotide sequence decoding in the step (a);

(c) 상기 (b) 단계의 생성된 NGS 데이터 세트의 리드들을 어셈블리 소프트웨어를 사용하여 어셈블리하는 단계;(c) assembling leads of the generated NGS data set of step (b) using assembly software;

(d) 상기 (c) 단계의 어셈블리 후 생성된 컨티그에서 엽록체, 미토콘드리아 및 핵 리보솜 DNA(nrDNA, nuclear ribosomal DNA) 서열로 이루어진 군으로부터 선택되는 하나 이상의 서열을 포함하는 컨티그들을 분리하는 단계; 및(d) isolating contigs comprising at least one sequence selected from the group consisting of chloroplasts, mitochondria, and nuclear ribosomal DNA (nrDNA) sequences in the contig produced after assembly in step (c); And

(e) 상기 (d) 단계의 분리된 컨티그들을 염기서열 비교 프로그램을 이용하여 연결하고 어셈블리 중 발생한 오류를 수정하는 단계를 포함하는 것을 특징으로 하는 생물체의 엽록체, 미토콘드리아 또는 핵 리보솜 DNA의 완전한 게놈 서열을 단독으로 또는 동시에 해독하는 방법을 제공한다.(e) linking the separated contigs of step (d) using a nucleotide sequence comparison program and correcting errors occurring in the assembly, wherein the complete genomic sequence of the chloroplast, mitochondrial or nuclear ribosomal DNA of the organism Either alone or at the same time.

또한, 본 발명은 상기 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체를 제공한다.The present invention also provides a recording medium on which a computer-readable program for performing the above method is recorded.

본 발명에서는 적은 양의 전체 게놈 서열 정보를 가지고 고효율 방법으로 완전한 엽록체 유전체 서열, 미토콘드리아 서열 및 45s nrDNA 주요 단위 서열을 동시에 de novo 어셈블하는 새로운 방법 및 오류 제거 방법을 개발하였다. 본 발명의 염기서열 해독방법은 high copy 필수 게놈 영역과 주요 반복 부위의 연구, 종간 또는 속간 식별용 DNA 바코딩 마커 개발, 기원판별, 종자 순도검정, 광합성 생물의 진화 기작 규명 연구 및 서열 정보를 바탕으로 한 고유 자원의 권리보호와 특정 품종에 대한 육종가의 권리보호 등에 다양하게 적용될 수 있으므로, 산업적으로 유용하게 이용될 것으로 판단된다.In the present invention, a new method and an error elimination method for de novo assembling a complete chloroplast genome sequence, a mitochondrial sequence and a 45s nrDNA major unit sequence simultaneously with a small amount of whole genome sequence information and a highly efficient method have been developed. The base sequence decoding method of the present invention is based on the study of high copy essential genome region and major repetition site, development of DNA bar coding markers for interspecific or interspecific identification, origin discrimination, seed purity assay, investigation of evolutionary mechanism of photosynthetic organisms, And the protection of the rights of the breeder to a specific breed, it is considered to be useful industrially.

도 1은 벼(Oryza sativa)와 인삼(Panax ginseng)의 데이터 세트 중 상위 길이 30개의 컨티그를 추출하여 분석한 결과로, a는 엽록체, 핵 리보솜 DNA(nrDNA), 미토콘드리아 및 기타에 해당하는 컨티그 수를 막대그래프로 표시한 것으로, % 숫자는 추출된 컨티그로 각 참조 서열길이 전체 대비 해당하는 길이의 비율을 의미한다. 또한 b는 벼 Os2 데이터 세트를 사용하여 컨티그 어셈블하여 엽록체 서열을 매핑한 결과이다.
도 2는 벼의 각 데이터 세트별 참여한 컨티그 및 에러를 표시한 그림이다.
도 3은 벼와 인삼의 데이터 세트의 어셈블리 오류자리와 오류 베이스 페어 정보를 나타낸 결과이다.
도 4는 삽입결실 어셈블리 오류와 수정 과정을 보여주는 그림이다.
도 5는 어셈블리 오류로 나타날 수 있는 종렬중복 부위를 나타내는 그림이다. a는 인삼의 종렬중복 부위에 나타나는 잘못된 어셈블리의 형태를 나타내며, b는 인삼에서 나타난 18bp 종렬중복이 4 카피 존재하는 지역의 올바른 어셈블리 경우를 표시한 모식도이며, c는 상기 b의 18bp 종렬중복이 잘못 어셈블리된 경우로 각각 2 카피 및 4 카피로 어셈블 되었을 때의 리드의 깊이를 표시한 것이다.
도 6은 다양한 형태의 티민(T) 단일중합체 부위를 보여주는 그림이다.
도 7은 미토콘드리아 리드(서열 조각)에 의해 야기되는 잘못된 어셈블 부위의 예를 나타내는 그림이다.
도 8은 100배 커버리지 데이터 세트를 사용한 벼(Oryza sativa), 인삼(Panax ginseng) 및 미국삼(Panax quinquefolius)의 엽록체 염기서열의 결과로, Y축은 각각의 원시 데이터의 매핑 깊이를 의미하며, 색으로 표시된 상자들은 개개의 컨티그를 나타낸다.
도 9는 본 발명의 방법에 의해 완성된 엽록체 서열과 참조 서열과의 비교 결과이다.
도 10은 벼와 인삼의 리보솜 DNA(rDNA)의 분포 경향을 나타내는 결과로, a는 완성된 벼 품종(니폰바레)의 rDNA 단위의 7,928bp를 니폰바레 염색체 9번에 Blastz 한 결과이며, b는 nrDNA 1 단위의 구조이고, c는 미국삼(Panax quinquefolius)으로 인삼(Panax ginseng)과 벼(Oryza sativa)의 nrDNA 서열을 비교한 결과이며, d는 de novo 어셈블리로 완성된 nrDNA의 IGS 길이를 확인하기 위해 45s의 보존 영역에 프라이머를 제작한 것을 보여주는 그림이며, e와 f는 인삼과 미국삼의 IGS 길이 및 종 간 변이 지역을 확인하기 위해 수행한 PCR 결과이다.
도 11은 본 발명의 방법에 의해 완성된 다양한 식물 종들의 엽록체 게놈 지도이다.
도 12는 mVISTA 프로그램을 사용하여 인삼과 미국삼의 엽록체 게놈을 비교한 결과이다.
도 13은 mVISTA 프로그램을 사용하여 12개의 인삼 품종과 미국삼의 엽록체 게놈을 비교한 결과이다.
도 14는 mVISTA 프로그램을 사용하여 17개의 벼 품종간의 엽록체 게놈을 비교한 결과이다.
도 15는 엽록체 게놈을 바탕으로 한 17개의 벼 품종간의 계통 발생을 분석한 결과이다.
도 16은 벼 16 종의 nrDNA의 구조와 각 종간의 nrDNA의 서열을 비교한 결과이다.
도 17은 45s rDNA의 서열을 바탕으로 인삼 13 종의 계통 발생을 분석한 결과이다.
도 18은 45s rDNA의 서열을 바탕으로 벼 16 종의 계통 발생을 분석한 결과이다.
도 19는 본 발명의 방법을 이용하여 종 특이 엽록체 게놈 기반 바코딩 마커들의 예를 나타낸다.
도 20은 인삼 품종 '천풍'과 '연풍' 두 품종 간의 엽록체 게놈에서 염기서열의 다양성을 보여주는 그림이다.
도 21은 인삼 품종 '천풍'의 종 특이적 마커를 나타내는 결과이다.
도 22는 리보솜 DNA 서열을 통해 종 구분 및 품종 식별 등에 활용될 수 있는 고유 마커를 나타내는 그림이다.
도 23은 본 발명의 엽록체 및 리보솜 DNA의 de novo 어셈블리 방법의 흐름을 모식화한 그림이다.
도 24는 본 발명의 WGS(whole genome sequence)로부터 엽록체와 nrDNA의 완전한 서열정보를 해독하는 방법의 흐름도이다.
1 is a rice (Oryza sativa ) and ginseng ( Panax ginseng ), a is a bar graph showing the number of contigs corresponding to chloroplasts, nuclear ribosomal DNA (nrDNA), mitochondria, and others. Means the ratio of the length of each reference sequence to the total length of the reference sequence extracted. Also, b is the result of cotigmassing and chloroplast sequence mapping using rice Os2 data set.
FIG. 2 is a diagram showing contigs and errors participating in each data set of rice. FIG.
FIG. 3 shows the result of showing the assembly error position and the error base pair information of the data sets of rice and ginseng.
FIG. 4 is a diagram showing errors and correcting processes of the insertion-deletion assembly. FIG.
FIG. 5 is a diagram showing a column redundancy region that may appear as an assembly error. FIG. a represents the type of erroneous assembly appearing in the columnar redundant portion of ginseng, b is a schematic diagram showing the case of correct assembly in the region where there is 4 copies of the 18-bp column redundancy generated from ginseng, and c indicates that the 18- And the depth of the lead when assembled into 2 copies and 4 copies, respectively.
Figure 6 is a picture showing various types of thymine (T) homopolymer sites.
Figure 7 is an illustration showing an example of a false assembly site caused by a mitochondrial lead (sequence fragment).
FIG. 8 is a graph showing the effect of the 100- sativa ), ginseng ( Panax As a result of the chloroplast base sequence of ginseng and Panax quinquefolius , the Y axis represents the mapping depth of each primitive data, and the colored boxes represent the individual contigs.
Fig. 9 shows the results of comparison between chloroplast sequences and reference sequences completed by the method of the present invention.
10 shows the distribution tendency of ribosomal DNA (rDNA) of rice and ginseng, where a is the result of blastz of 7,928 bp of the rDNA unit of the finished rice variety (Nipponbare) on Nipponbare chromosome 9, and b and the structure of the unit nrDNA 1, c is the American ginseng (Panax quinquefolius) ginseng (Panax ginseng ) and rice ( Oryza sativa ), d is the primer made in the conserved region of 45s to confirm the IGS length of the nrDNA completed with de novo assembly, and e and f are the numbers of ginseng IGS length and interspecific variation.
Figure 11 is a chloroplast genome map of various plant species completed by the method of the present invention.
FIG. 12 shows the results of comparing the chloroplast genome of ginseng with that of American ginseng using the mVISTA program.
FIG. 13 shows the results of comparing 12 chlorophyll genomes with 12 ginseng cultivars using the mVISTA program.
14 shows the results of comparing the chloroplast genomes among 17 rice varieties using the mVISTA program.
15 shows the results of analysis of phylogeny among 17 rice varieties based on the chloroplast genome.
Fig. 16 shows the result of comparing the structure of nrDNA of 16 species of rice with the sequence of nrDNA of each species.
FIG. 17 shows the results of analysis of phylogeny of 13 ginseng based on the sequence of 45s rDNA.
18 shows the results of analysis of the lineage of 16 species of rice based on the sequence of 45s rDNA.
Figure 19 shows examples of species specific chloroplast genome based bar coding markers using the method of the present invention.
20 is a diagram showing the diversity of the nucleotide sequences in the chloroplast genome between the two kinds of ginseng cultivars 'Chunpoong' and 'Yeonpoong'.
FIG. 21 shows the result of indicating a species-specific marker of the ginseng cultivar 'Chunhoong'.
22 is a diagram showing a unique marker that can be utilized for species classification and breed identification through a ribosomal DNA sequence.
23 is a diagram illustrating the flow of the de novo assembly method of the chloroplast and ribosomal DNA of the present invention.
24 is a flowchart of a method for decoding complete sequence information of chloroplast and nrDNA from whole genome sequence (WGS) of the present invention.

상기 목적을 달성하기 위하여, 본 발명은In order to achieve the above object,

(a) 생물체의 전체 게놈을 대상으로 차세대 시퀀싱(NGS, next generation sequencing) 방법으로 염기서열을 해독하는 단계;(a) decoding a nucleotide sequence of a whole genome of an organism by a next generation sequencing (NGS) method;

(b) 상기 (a) 단계의 염기서열 해독을 통해 생성되는 리드(서열조각)들을 이용하여 엽록체 게놈 커버리지 양에 기초하여 NGS 데이터 세트를 생성하는 단계;(b) generating an NGS data set based on the amount of chloroplast genome coverage using the leads (sequence fragments) generated through the nucleotide sequence decoding in the step (a);

(c) 상기 (b) 단계의 생성된 NGS 데이터 세트의 리드들을 어셈블리 소프트웨어를 사용하여 어셈블리하는 단계;(c) assembling leads of the generated NGS data set of step (b) using assembly software;

(d) 상기 (c) 단계의 어셈블리 후 생성된 컨티그에서 엽록체, 미토콘드리아 및 핵 리보솜 DNA(nrDNA, nuclear ribosomal DNA) 서열로 이루어진 군으로부터 선택되는 하나 이상의 서열을 포함하는 컨티그들을 분리하는 단계; 및(d) isolating contigs comprising at least one sequence selected from the group consisting of chloroplasts, mitochondria, and nuclear ribosomal DNA (nrDNA) sequences in the contig produced after assembly in step (c); And

(e) 상기 (d) 단계의 분리된 컨티그들을 염기서열 비교 프로그램을 이용하여 연결하고 어셈블리 중 발생한 오류를 수정하는 단계를 포함하는 것을 특징으로 하는 생물체의 엽록체, 미토콘드리아 또는 핵 리보솜 DNA의 완전한 게놈 서열을 단독으로 또는 동시에 해독하는 방법을 제공한다.(e) linking the separated contigs of step (d) using a nucleotide sequence comparison program and correcting errors occurring in the assembly, wherein the complete genomic sequence of the chloroplast, mitochondrial or nuclear ribosomal DNA of the organism Either alone or at the same time.

본 발명의 일 구현 예에 따른 방법에 있어서, 상기 엽록체 또는 미토콘드리아의 완전한 염기서열을 해독하는 (e) 단계는,In the method according to an embodiment of the present invention, the step (e) of decrypting the complete nucleotide sequence of the chloroplast or mitochondria comprises:

상기 (d) 단계의 분리된 컨티그 중 엽록체 서열을 포함하는 컨티그를 정렬하고 연결시켜 완전한 원형 서열로 만든 후, 생성된 원시 데이터 서열을 매핑하고 어셈블리 오류를 제거하는 단계를 포함하는 것일 수 있으며,Sorting and joining the contigs comprising the chloroplast sequences among the separated contigs of step (d) into a complete circular sequence, mapping the generated raw data sequence and eliminating assembly errors ,

상기 핵 리보솜 DNA의 완전한 염기서열을 해독하는 (e) 단계는,The step (e) of decrypting the complete nucleotide sequence of the nuclear ribosomal DNA comprises:

상기 (d) 단계의 분리된 컨티그 중 45s rDNA 서열을 포함하는 컨티그를 인위적으로 두 개 나열한 후, 그 사이에 인위적인 갭을 부여하고, 갭 클로저(Gap closer) 프로그램을 사용하여 유전자와 유전자 사이(IGS, intergenic spacer) 영역의 물리적 갭을 채우고 완전한 45s rDNA 단위를 완성하고, 완성된 완전한 45s rRNA 단위의 원시 데이터 서열을 매핑하고 어셈블리 오류를 제거하는 단계를 포함하는 것일 수 있으나, 이에 제한되지 않는다.Among the separated contigs of step (d), contigs containing the 45s rDNA sequence are artificially arranged in two, an artificial gap is given therebetween, and a gene gap gene program But is not limited to, filling the physical gaps in the intergenic spacer (IGS) region, completing the complete 45s rDNA unit, mapping the raw data sequence of the completed complete 45s rRNA unit, and eliminating assembly errors .

본 발명의 일 구현 예에 따른 방법에 있어서, 상기 (b) 단계의 NGS 데이터 세트는 엽록체 게놈의 50~500배를 커버리지 할 수 있는 양인 것일 수 있으나, 이에 제한되지 않는다.In the method according to an embodiment of the present invention, the NGS data set of step (b) may be an amount capable of covering 50 to 500 times of the chloroplast genome, but is not limited thereto.

또한, 본 발명의 일 구현 예에 따른 방법에 있어서, 상기 (c) 단계의 어셈블리 소프트웨어는 SOAP de novo, CLC de novo, Bowtie, Velvet 또는 BWA 등일 수 있고, 바람직하게는 SOAP de novo 또는 CLC de novo 소프트웨어일 수 있으나, 이에 제한되지 않는다.Also, in the method according to an embodiment of the present invention, the assembly software of step (c) may be SOAP de novo, CLC de novo, Bowtie, Velvet or BWA, and preferably SOAP de novo or CLC de novo Software, but is not limited thereto.

본 발명의 일 구현 예에 따른 방법에 있어서, 상기 (e) 단계의 염기서열 비교 프로그램은 Blast, Clusatal X, Bioedit 또는 Phydit 등의 프로그램일 수 있고, 바람직하게는 Blast 또는 Bioedit일 수 있으며, 더욱 바람직하게는 Blast일 수 있으나, 이에 제한되지 않는다. In the method according to one embodiment of the present invention, the nucleotide sequence comparison program of step (e) may be a program such as Blast, Clusatal X, Bioedit or Phydit, preferably Blast or Bioedit, , But is not limited thereto.

본 발명의 일 구현 예에 따른 방법에 있어서, 상기 생물체는 미생물, 물이끼, 솔이끼 등의 이끼류, 녹조류, 홍조류 또는 갈조류 등의 조류(algae) 등의 하등 광합성 생물체, 버섯류를 포함하는 곰팡이류, 거대 유전체를 가진 고등 식물체, 곤충, 어류 또는 동물 등일 수 있으나, 이에 제한되지 않는다.In the method according to an embodiment of the present invention, the organism may be selected from the group consisting of microorganisms such as algae such as microbes, mosses, mosses, algae such as algae, algae or brown algae, fungi including mushrooms, , An insect, a fish or an animal, and the like.

본 발명의 일 구현 예에 따른 방법에 있어서, 상기 어셈블리 오류는 염기서열 오류, 가짜 갭(false gap), 종렬중복(tandem repeat) 오류, 단일중합체(monopolymer) 오류 또는 단일염기 다형성(SNP) 오류 등일 수 있으나, 이에 제한되지 않는다.In the method according to an embodiment of the present invention, the assembly error may be a sequence error, a false gap, a tandem repeat error, a monopolymer error, or a single nucleotide polymorphism (SNP) error But is not limited thereto.

또한, 본 발명은 상기 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체를 제공한다. 구체적으로, NGS 실험 자료를 이용하여 생물체의 엽록체, 미토콘드리아 또는 핵 리보솜 DNA의 완전한 염기서열을 분석하기 위한 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체를 제공한다.The present invention also provides a recording medium on which a computer-readable program for performing the above method is recorded. Specifically, a recording medium on which a computer-readable program for performing a method for analyzing complete nucleotide sequences of chloroplasts, mitochondria, or nuclear ribosomal DNA of an organism using NGS experimental data is provided.

컴퓨터로 판독할 수 있는 기록매체란 컴퓨터에 의해 직접 판독되고 엑세스될 수 있는 임의의 기록매체를 말한다. 이러한 기록매체로서는 플로피 디스크, 하드 디스크, 자기 테이프 등의 자기기록매체, CD-ROM, CD-R, CD, RW, DVD-ROM, DVD-RAM, DVD-RW 등의 광학기록매체, RAM이나 ROM 등의 전기 기록매체 및 이들 범주의 혼합물(예: MO 등의 자기/광학기록매체)을 들 수 있지만, 이에 제한되지 않는다.
A computer-readable recording medium is any recording medium that can be directly read and accessed by a computer. Examples of the recording medium include magnetic recording media such as a floppy disk, a hard disk and a magnetic tape; optical recording media such as CD-ROM, CD-R, CD, RW, DVD-ROM, DVD- , And mixtures of these categories (e.g., magnetic / optical recording media such as MO), but are not limited thereto.

이하, 본 발명을 실시예에 의해 상세히 설명한다. 단, 하기 실시예는 본 발명을 예시하는 것일 뿐, 본 발명의 내용이 하기 실시예에 한정되는 것은 아니다.
Hereinafter, the present invention will be described in detail by way of examples. However, the following examples are illustrative of the present invention, and the present invention is not limited to the following examples.

실시예Example 1. 전체 게놈 서열을 이용한 엽록체 게놈과  1. Chloroplast genome using whole genome sequence nrDNAnrDNA of dede novonovo 어셈블리 assembly

전체 게놈 어셈블리(whole genome assembly)를 수행하기 위해서는 생거 시퀀싱(Sanger sequencing)의 경우 약 3~10배, 454 파이로시퀀싱(pyrosequencing)의 경우 약 13~22배, Illumina 시퀀싱의 경우는 약 60~100배 양의 게놈 데이터가 요구된다. 최근 가장 많이 이용되고 있는 Illumina 플랫폼의 경우 약 100배 이상의 게놈 커버리지 WGS(whole genome sequence) 서열을 이용하여 어셈블리를 수행하며, 이를 통해 30여종 이상의 식물 유전체 해독이 완료되었다. 하지만 이렇게 많은 양의 WGS를 이용하더라도 완전한 엽록체 게놈과 nrDNA 서열을 확보하기가 어렵다. 이때 생성되는 엽록체 서열을 포함하는 대부분의 컨티그들은 핵 내 게놈 DNA 서열과 융합된 키메릭(chimeric) 컨티그들의 형태임이 확인되었다. 반면에 게놈 기준 약 1배의 소량 WGS 데이터를 이용하여 CLC de novo 어셈블러로 어셈블리한 결과, 대부분의 길게 생성된 컨티그들은 엽록체, 미토콘드리아 그리고 리보솜 DNA(rDNA) 서열 등 세포 내 매우 높은 카피수로 존재하는 게놈 서열인 것으로 나타났다. 벼(Oryza sativa)의 경우 가장 길게 어셈블된 30개의 컨티그 서열 중 5개의 컨티그가 약 20bp의 중복을 가지고 전체 엽록체 게놈을 커버하는 것을 확인할 수 있었으며 더불어 핵의 리보솜 DNA(nrDNA) 서열을 포함하는 6,889bp의 1개의 컨티그를 확인하였다. 반면 15개 컨티그는 미토콘드리아 유전체의 약 50%를 커버하였다(표 1 및 도 1).To perform whole genome assembly, about 3 to 10 times for Sanger sequencing, about 13 to 22 times for 454 pyrosequencing, and about 60 to 100 times for Illumina sequencing Duplicate genome data is required. Recently, the Illumina platform, which is the most widely used platform, has been assembled using about 100 times more whole genome sequence (WGS) sequences, and more than 30 plant genome decodings have been completed. However, it is difficult to obtain a complete chloroplast genome and nrDNA sequence even with such a large amount of WGS. Most of the contigs, including the chloroplast sequences generated at this time, were found to be in the form of chimeric contigs fused with genomic DNA sequences in the nucleus. On the other hand, as a result of assembly with the CLC de novo assembler using small quantities of WGS data approximately one-and-a-half times the size of the genome, most of the long-produced con- tents are present in very high copies in the cell, such as chloroplasts, mitochondria and ribosomal DNA Genome sequence. In the case of rice ( Oryza sativa ), five of the longest assembled congig sequences were found to cover the entire chloroplast genome with an overlap of about 20 bp. In addition, the nucleotides containing the nucleotide ribosomal DNA (nrDNA) One contig of 6,889 bp was identified. While 15 contigs covered about 50% of the mitochondrial genome (Table 1 and Figure 1).

Figure 112013120926693-pat00001
Figure 112013120926693-pat00001

인삼(Panax ginseng)의 경우도 30개의 긴 컨티그 서열 중 3개가 엽록체, 13개가 미토콘드리아, 1개가 9,422bp의 nrDNA 서열을 나타내었다(표 2 및 도 1). Panax ginseng ) showed three chloroplasts, thirteen mitochondria and one nrDNA sequence of 9,422 bp in 30 consecutive contig sequences (Table 2 and Fig. 1).

Figure 112013120926693-pat00002
Figure 112013120926693-pat00002

이를 바탕으로 유전체 크기가 430Mbp로 상대적으로 작은 벼와 비교적 게놈 사이즈가 크며 아직 연구가 미비한 인삼의 경우 WGS를 이용하여 적절한 어셈블리 조건을 제시하면 완전한 엽록체와 nrDNA 서열을 완성할 수 있다는 가능성을 제시하였다. 이에 본 발명에서는 최적의 어셈블리 조건을 찾기 위한 연구를 수행하였다.
Based on these results, it is suggested that rice germ with a relatively small genome size of 430 Mbp and a comparatively large genome size of ginseng, which have not yet been studied, can complete a chloroplast and nrDNA sequence by providing appropriate assembly conditions using WGS. Therefore, the present invention has been carried out to find the optimum assembly condition.

실시예Example 2.  2. DeDe novonovo 게놈  Genome 어셈블러의Assembler 선택 Selection

현재 대중적으로 이용되고 있는 몇 가지 게놈 어셈블러 중에 SOAP de novo 2.04 버전(http://soap.genomics.org.cn/)과 CLC-NGS-CELL 4.06 베타 버전(www.clcbio.com/products/clc-assembly-cell)을 이용하여 엽록체 게놈을 포함하는 컨티그의 생성 능력을 비교하였다. 두 게놈 어셈블러 모두 엽록체 서열을 포함하는 컨티그를 형성하였지만 SOAP de novo 2.04 버전의 경우, CLC-NGS-CELL 4.06 베타 버전을 이용하였을 때보다 50배 및 250배 데이터 세트에서 다소 많은 수의 짧은 컨티그를 생성하였고, 커버리지 또한 낮게 나와 엽록체 게놈을 완성하기 위한 조건이 매우 민감하였다. 하지만 CLC 어셈블러의 경우, 데이터 세트가 증가하여도 5개 미만으로 된 비교적 긴 컨티그로 전체 엽록체 유전체를 커버할 수 있었다. 특히, 식물 중 비교적 게놈 사이즈가 큰 인삼(약 3.2 Gbp)에서도 CLC 어셈블러가 적은 컨티그 수로 엽록체 전체를 커버하였다(표 3).Some popular genomic assemblers are SOAP de novo 2.04 (http://soap.genomics.org.cn/) and CLC-NGS-CELL 4.06 beta (www.clcbio.com/products/clc- assembly-cell) was used to compare the ability of constructs containing the chloroplast genome. Both genome assemblers formed contigs containing chloroplast sequences, but for the SOAP de novo 2.04 version, a somewhat larger number of short contigs in the 50x and 250x data sets than in the CLC-NGS-CELL 4.06 beta version And the coverage was also low and the conditions to complete the chloroplast genome were very sensitive. However, in the case of the CLC assembler, the increase in the data set was able to cover the entire chloroplast dielectric with a relatively long congigence of less than five. In particular, even in the relatively large genome size of plants (about 3.2 Gbp), the CLC assembler covered the entire chloroplast with a small contiguous number (Table 3).

Figure 112013120926693-pat00003
Figure 112013120926693-pat00003

따라서 CLC 어셈블러를 이용하여 엽록체 게놈 및 nrDNA 서열을 완성하는 최적의 조건을 확립하고자 추가 연구를 수행하였다.
Therefore, additional studies were conducted to establish optimal conditions to complete the chloroplast genome and nrDNA sequences using the CLC assembler.

실시예Example 3. 엽록체 게놈 어셈블리를 위해 필요한  3. Need for chloroplast genome assembly NGSNGS 데이터의 양 Amount of data

WGS 데이터를 활용하여 엽록체와 nrDNA 서열을 어셈블리하기 위한 적정 데이터 양을 찾기 위해 벼 표준품종 니폰바레(Nipponbare)의 WGS 44,425,734,760bp와 인삼 품종 '천풍'의 WGS 220,948,250,844bp를 이용하였다. 이는 각각 벼와 인삼 유전체 크기의 약 100배 및 70배의 커버리지에 해당하는 양이며 각각의 WGS에는 엽록체 유전체가 각각 1.69%와 6% 포함되어 있었다. 이에 기초하여 엽록체 게놈 기준으로 50~5,000배를 포함하는 WGS 데이터 세트 10개를 하기 표 4와 같이 생성하였다.WGS 44,425,734,760bp of Nipponbare rice variety and WGS 220,948,250,844bp of Ginseng varieties 'Chunpoong' were used to find the appropriate amount of data to assemble chloroplast and nrDNA sequences using WGS data. These amounts corresponded to about 100 times and 70 times the coverage of rice and ginseng dielectrics, respectively, and each WGS contained 1.69% and 6% of chloroplast genomes, respectively. Based on this, 10 WGS data sets containing 50 to 5,000 times based on the chloroplast genome were generated as shown in Table 4 below.

Figure 112013120926693-pat00004
Figure 112013120926693-pat00004

벼와 인삼에서 1배 게놈 커버리지 기준 엽록체 게놈 커버리지는 각각 50배와 1,050배에 해당하며 rDNA 커버리지는 각각 324배와 3,560배에 해당하였다. 각각의 데이터 세트별로 어셈블리 후, 엽록체 시퀀스(NCBI accession No. GU592207.1)를 포함하는 컨티그 수와 어셈블리 오류를 확인하였다.In rice and ginseng, the genomic coverage of chloroplast genome coverage was 50 times and 1,050 times, respectively, and rDNA coverage was 324 times and 3,560 times, respectively. After assembly for each data set, we checked the number of contigs and assembly errors including chloroplast sequences (NCBI accession No. GU592207.1).

벼(Oryza sativa) 데이터 세트는 OS3-OS6에서, 인삼(Panax ginseng) 데이터 세트는 PG3-PG7에서 적은 컨티그 수와 더불어 하기 표 5와 같이 적은 양의 염기서열 오류를 보여주었다.Rice ( Oryza sativa ) dataset from OS3-OS6, ginseng ( Panax ginseng ) data set showed a small amount of sequence errors as shown in Table 5 below, with a small number of contigs in PG3-PG7.

Figure 112013120926693-pat00005
Figure 112013120926693-pat00005

엽록체 게놈 기준 깊이(depth)가 50배 이하 및 1,000배 이상인 데이터 세트는 전체 엽록체 유전체를 커버하지 못하거나 엽록체 컨티그 수가 증가하고 어셈블리 오류 또한 증가하였다(도 2 및 도 3).Data sets with a chloroplast genome reference depth of less than 50 times and 1,000 times greater did not cover the entire chloroplast genome or increased the number of chloroplast contigs and increased assembly errors (FIGS. 2 and 3).

벼와 인삼의 NGS 데이터 세트를 활용하여 적당한 WGS 데이터 양을 알아본 결과 엽록체 기준으로 약 100~500배의 데이터 세트에서 적은 갭과 미스매치가 나타났고, 이 범위는 벼의 경우 0.86~4.3Gbp의 WGS 양에 해당하고 인삼의 경우 0.3~1.5Gbp의 WGS 양에 해당하므로 인삼과 같이 게놈 사이즈가 큰 식물이라도 엽록체 게놈의 혼입 정도에 따라 일정 양의 WGS 서열로 엽록체 게놈의 어셈블리가 가능하다는 것을 확인할 수 있었다.
Using the NGS data set of rice and ginseng, the appropriate amount of WGS data showed that there was a small gap and mismatch in the data set of about 100 to 500 times based on chloroplast, which ranged from 0.86 to 4.3 Gbp The amount of WGS is equivalent to 0.3 ~ 1.5Gbp of ginseng. Therefore, it is confirmed that even a plant having a large genome size such as ginseng can be assembled with a certain amount of WGS sequence according to the degree of chloroplast genome incorporation there was.

실시예Example 4. 어셈블리 오류의 수정 4. Correction of assembly errors

NGS 데이터로 엽록체 게놈을 어셈블리하면 갭이나 불특정 뉴클레오티드 'N'이 나타나는데 여기에는 가짜 갭(false gap), 종렬중복(tandem repeats)의 반복에 의한 오류, 단일중합체(monopolymer)에 의한 오류와 미토콘드리아와 핵 게놈 DNA의 간섭에 의한 단일염기다형성(SNP) 타입의 오류 등이 있다. NGS 데이터로 엽록체 게놈을 작성할 시 생기는 오류를 보정하기 전에 오류 자리들을 발견해야 하는데 그 방법은 초안 엽록체 게놈(draft chloroplast genome) 서열을 완성한 후 원시 데이터를 매핑하여 CLC 어셈블리 뷰어를 통해 매핑된 원시 데이터 경향을 전체적으로 보는 과정이 필요하다. 어셈블리 오류가 있는 지역은 잘못 매핑된 원시 리드(서열조각)들이 많이 존재하므로 이를 통해 아래와 같이 보정할 수 있다.
When the chloroplast genome is assembled with NGS data, gaps or unspecified nucleotides 'N' appear, including false gaps, errors due to repetition of tandem repeats, errors due to monopolymers, And single nucleotide polymorphism (SNP) type errors due to genomic DNA interference. Before correcting errors in the creation of chloroplast genomes with NGS data, you should first find error loci, which can be accomplished by mapping the raw data after completing the draft chloroplast genome sequence and using the raw data trends mapped through the CLC assembly viewer It is necessary to look at the whole. Areas with assembly errors can be calibrated as follows, since there are many mis-mapped primitive leads (sequence fragments).

4-1. 가짜 갭(false gap)4-1. False gap

실제로는 갭이 아니지만 어셈블리 오류에 의해 생긴 갭들은 보통 어셈블리 된 서열 중에 N을 포함하였다. 도 4에서 보이듯 N을 중심으로 잘못 어셈블된 서열 좌우에는 서로 중복되는 서열이 있음에도 어셈블리 과정에 한 개의 N이 있는 가짜 갭을 만드는데 중복되는 부분을 하나의 시퀀스로 인위적으로 결합시킴으로써 N이 제거된 완전한 서열로 수정할 수 있고 수정된 서열에는 원시 리드들이 깨끗하게 매핑되는 것을 확인할 수 있었다. 이 결과는 벼 니폰바레 품종의 서열과 비교를 통해 수정된 서열과 참조 서열이 일치하는 것을 확인하였으며, 인삼의 경우도 PCR 및 시퀀싱을 통해 수정 과정을 통해 가짜 갭을 해결하는 법을 재확인할 수 있었다.
Gaps caused by assembly errors, although not actually gaps, usually contained N in the assembled sequence. As shown in FIG. 4, although there are overlapping sequences on the right and left sides of the misaligned sequence centered on N, a fake gap having one N in the assembly process is created. The overlapping portions are artificially combined with one sequence, , And the modified sequences were clearly mapped to native leads. This result confirmed that the modified sequence and reference sequence coincided with the sequence of the rice Nippon barley variety, and in the case of ginseng, the PCR and sequencing were also able to confirm the method of resolving the fake gap through the modification process .

4-2. 종렬중복(tandem repeats)4-2. Tandem repeats

NGS는 생거 시퀀싱보다 월등히 많은 양의 데이터를 생산하지만 짧은 리드 길이(100bp 내외)로 인한 어셈블리 오류 가능성은 증가되었다. 특히, de novo 게놈 어셈블리에서 종렬이중(tandem duplication) 지역은 복제 수 변화에 의해 흔히 어셈블리 오류가 발생하였다. 분석량(read length) 보다 반복 단위(repeat unit)의 길이가 길거나, 게놈 내에 종렬(tandem) 또는 산재(interspersed) 되어 있는 반복은 반복 붕괴 및 재정렬(repeat collapse and rearrangement) 등을 야기하였다. 분석량보다 반복 단위의 길이가 작은 경우 반복길이에 따른 k-mer 값의 조절로 오류를 해결할 수 있었다. 도 5에서 보여지듯 18bp 단위의 종렬중복의 반복 붕괴는 k-mer 값을 최대 64로 하였을 경우 2 카피에서 4 카피로 오류가 교정되었다. 종렬중복 수가 원래보다 작게 어셈블된 초안 엽록체 서열에 원시 데이터 매핑을 할 경우, 반복 붕괴가 생긴 곳에는 잘못 매핑된 리드들을 확인할 수 있을 뿐만 아니라 이 잘못 매핑된 원시 리드들이 깊이에 포함되는 이유로 인하여 리드 깊이 또한 주변지역보다 현저히 높아지기 때문에 반복의 복제 수 오류를 예측하고 수정할 수 있었다. 대부분의 식물 엽록체 게놈에 존재하는 종렬중복의 단위 크기는 100bp 이하이므로 이와 같은 방법으로 거의 모든 오류를 발견할 수 있고 또한 제거할 수 있었다.
NGS produces significantly more data than lenticular sequencing, but the likelihood of assembly errors due to short lead lengths (around 100bp) has increased. In particular, in the de novo genome assembly, tandem duplication regions often experienced assembly errors due to changes in the number of copies. Repetition with longer repeat units than the read length or tandem or interspersed within the genome resulted in repeat collapse and rearrangement. If the length of the repeat unit is smaller than the analytical quantity, the error can be solved by adjusting the k-mer value according to the repeat length. As shown in FIG. 5, the repeated collapse of the column redundancy in units of 18 bp was corrected from 2 copies to 4 copies when the k-mer value was set to 64 at maximum. When primitive data mapping is performed on a draft chlorophyll sequence assembled with less than the number of column redundancies, not only can the mis-mapped leads be identified where repeat collapse occurs, but also because the mis- In addition, since it is significantly higher than the surrounding area, it is possible to predict and correct duplication error of repetition. Since the unit size of column redundancy in most plant chloroplast genomes is less than 100bp, almost all errors can be detected and removed by this method.

4-3. 단일중합체(monopolymer)4-3. Monopolymer

단일중합체(monopolymer)는 게놈 DNA 뿐만 아니라 엽록체 게놈에서도 많은 문제를 야기하는데, 벼와 인삼의 엽록체 게놈에 8mer 이상의 단일중합체가 나타나는 지역은 조사결과, 각각 95개와 91개이었으며 이 중 아데닌(A) 혹은 티민(T) 반복이 대부분을 차지하였다(표 6).Monopolymers cause many problems in the genome of chloroplasts as well as genomic DNA. In the chloroplast genome of rice and ginseng, the regions of 8 mer or more homopolymer were found to be 95 and 91, respectively. Among them, adenine (A) or Thymine (T) repetition accounted for the majority (Table 6).

Figure 112013120926693-pat00006
Figure 112013120926693-pat00006

이러한 단일중합체 지역에서 나타나는 오류 자리는 시퀀스 오류에 의해 유발될 수도 있지만 미토콘드리아나 핵 DNA에 삽입된 엽록체 서열 조각 중에 특히 단일중합체 부위에 변이가 많이 축적되었고 이런 서열이 어셈블리에 간섭을 일으켜 엽록체 게놈 어셈블리 오류의 원인을 유발한 것으로 예측되었다. 벼에서는 엽록체 게놈에서 유래한 DNA 조각 서열들이 염색체 전체에 삽입되어 분포하였다. 벼 엽록체 게놈의 78,424bp(NCBI accession No. GU592207.1)에는 17개의 T가 단일중합체로 되어있는데, 이 주변 서열은 벼 염색체 10군데에 분포하는데 특히 T 중합체 지역에서 변이가 많이 관찰되었다(도 6a 및 b). Os3 데이터 세트를 가지고 어셈블된 초기 컨티그에서는 T8로 어셈블 되었는데 이는 핵 내 염색체 5, 6, 7 및 9번에 존재하는 유사한 엽록체 시퀀스로 인해 잘못 어셈블된 것으로 판단할 수 있었다. 보정 방법으로는 원시 데이터에 존재하는 단일중합체 T들의 개수에 맞추어 임의로 서열을 생성한 후 원시 데이터를 매핑하여, 높은 깊이(depth)의 단일중합체를 고르는 방법으로 보정할 수 있었다. 엽록체 게놈 서열은 NGS 데이터에서 높은 깊이로 존재하기 때문에 이를 선택하는 것이 가장 정확한 엽록체 게놈 서열이라 판단할 수 있었다. 실제, T 단일중합체 반복 조합을 가진 서열 7, 8, 9, 10, 11, 12, 15 및 17개의 T를 가진 서열들로 초안 엽록체 게놈 서열을 만든 후 100%의 유사성으로 페어-엔드(pair-end) 매핑 하였을때 17개의 단일의 T 중합체를 가진 참조 엽록체 게놈 서열에 33.14로 가장 깊이가 높기 때문에 이를 통해 엽록체 게놈 서열을 확인할 수 있었다(도 6c). 이렇게 핵 DNA에 존재하는 엽록체 유래 서열이 어셈블리에 영향을 미치는 정도는 벼 엽록체 게놈 어셈블리에서 특이적으로 많이 나타났으며 이는 사용한 WGS 데이터 양이 벼 게놈 커버리지의 5배 이상이 되면서 나타났고, 커버리지가 높아질수록 오류 가능성이 증가하였으며 키메릭 어셈블리 형성이 증가함을 확인하였다.
Although errors in this single polymer region may be caused by sequence errors, a large number of mutations accumulate in the homopolymer region, especially in the chloroplast sequence fragments inserted into mitochondria or nuclear DNA, and these sequences interfere with the assembly causing chloroplast genome assembly errors Of the cases. In rice, DNA fragment sequences derived from the chloroplast genome were distributed throughout chromosomes. In the 78,424bp (NCBI accession No. GU592207.1) of the rice chloroplast genome, 17 Ts are homopolymers, which are distributed in 10 chromosomes of rice, especially in the T polymer region (Fig. 6 And b). In the initial context assembled with the Os3 data set, it was assembled into T8, which could be judged to be misassembled due to a similar chloroplast sequence present on chromosomes 5, 6, 7 and 9 in the nucleus. As a correction method, it was possible to correct the shape by randomly selecting a single polymer having a high depth by mapping the raw data after randomly generating sequences according to the number of homopolymers T existing in the raw data. Since the chloroplast genome sequence exists at a high depth in the NGS data, it can be concluded that the selection is the most accurate chloroplast genome sequence. Actually, a draft chloroplast genome sequence was constructed with sequences having sequences T, 7, 8, 9, 10, 11, 12, 15 and 17 T with repeating T homopolymer combinations, followed by pair- end), the chloroplast genome sequence was confirmed to be the highest in the reference chloroplast genome sequence with 17 single T polymers at 33.14 (Fig. 6c). Thus, the degree of chloroplast-derived sequences in the nucleus DNA affects the assemblage specifically in the rice chloroplast genome assembly, indicating that the amount of WGS data used was more than five times that of rice genome coverage, The error probability increased and the formation of chimeric assembly increased.

4-4. 상동의(homologous) 미토콘드리아 및 핵 DNA의 간섭에 의한 가짜 단일염기다형성(SNPs)4-4. Spurious single nucleotide polymorphisms (SNPs) due to interference of homologous mitochondria and nuclear DNA

초기 어셈블리에 사용한 WGS 양이 많아질 경우 미토콘드리아와 핵 게놈에 삽입되어 있는 엽록체 유래 DNA 조각이 어셈블리에 잘못 참여하여 단일염기다형성(SNP) 오류를 유발할 수 있는데, de-bruin 그래프(Compeau et al., 2011, Nat Biotechnol, 29:987-991)에 의해 어셈블되는 CLC 어셈블러의 특성상 이와 같은 오류는 매우 드물게 발생하였다(도 7b). 이런 형태의 오류는 마치 SNP처럼 나타나며 초안 어셈블리에 매핑된 원시 리드들의 확인을 통해 알 수 있었다. Os5 세트를 이용한 초안 엽록체 게놈은 51,940bp와 51,944bp 위치에 구아닌(G)과 티민(T)을 나타내고 있지만 대부분의 원시 리드들(212개 중 186개)이 T와 A를 가지고 있으며 잘못 매핑되어 있었다(도 7a). 반면 G와 T를 가지고 있는 서열은 212개 중 24개로 관찰되었고 이는 미토콘드리아에 존재하는 서열임을 확인할 수 있었다. 이를 통해 전체 212개 리드들 중 186개를 차지하는 주요 서열인 T와 A로 잘못된 SNP를 보정할 수 있었다.
When the amount of WGS used in the initial assembly increases, chloroplast-derived DNA fragments inserted into the mitochondrion and nuclear genome may mistakenly participate in assembly, resulting in single nucleotide polymorphism (SNP) errors. The de-bruin graph (Compeau et al. 2011, Nat Biotechnol, 29: 987-991), such errors have occurred very rarely (Figure 7b). This type of error appeared as if it were a SNP and was confirmed through the identification of primitive leads mapped to the draft assembly. Although the original chloroplast genome using the Os5 set shows guanine (G) and thymine (T) at 51,940bp and 51,944bp, most primitive leads (186 out of 212) have T and A and are mapped incorrectly (Fig. 7A). On the other hand, 24 out of 212 sequences with G and T were found to be present in the mitochondria. This allowed us to compensate for false SNPs with T and A, the major sequences of 186 of the total 212 leads.

실시예Example 5. 완전한 엽록체 게놈의 염기서열 해독을 위한 조건 최적화 5. Optimization of the conditions for the sequencing of the complete chloroplast genome

식물 잎으로부터 게놈 DNA를 준비하고 최소 1㎍ 정도로 300~500bp의 페어-엔드 라이브러리를 만들고 HiSeq2000이나 MySeq(Illumina, 미국) 플랫폼을 이용하여 WGS 1Gbp 내외 정도의 데이터를 생성하였다. 생성한 데이터 세트의 서열들 중 저급값(low quality value)을 가진 서열들을 제거하고 엽록체 서열의 오염 비율을 알기 위해서 공개된 데이터베이스에서 근연관계에 있는 서열을 찾아 CLC 참조 어셈블리 도구를 이용하여 매핑하고 데이터 세트의 엽록체 오염 비율을 알아낸 다음 엽록체 게놈 커버리지 기준으로 약 100~500배의 양이 포함되는 WGS를 추출하고 CLC 어셈블러를 이용하여 어셈블리하였다. 이때 종렬중복의 잘못된 어셈블을 막기 위해서는 k-mer 값을 64로 설정하고 어셈블리를 진행하는게 도움을 준다. 어셈블리 후에 갭 채우기 과정을 거친 후, 기존의 알려진 엽록체 시퀀스와 BLAST 기능을 이용하여 비교하고 어셈블리된 컨티그 데이터 세트에서 엽록체 서열을 분별하고 그 순서를 확정하고 컨티그 서열간에 중복되는 부분을 찾아서 하나의 엽록체 컨티그로 만들었다(도 8). 이렇게 생성한 엽록체 컨티그를 원시 데이터와의 매핑을 통하여 오류가 있는 부분을 찾고, 원시 데이터 매핑을 통해서 가짜 갭, 종렬중복 오류, 단일중합체 오류, 및 SNP 오류 등을 전술한 오류 수정 방법들을 통해 매뉴얼 보정하였다.
Genomic DNA was prepared from plant leaves and a 300-500 bp pair of at least 1 μg of the genomic DNA was prepared. Using the HiSeq2000 or MySeq (Illumina, USA) platform, WGS 1Gbp data was generated. In order to remove the sequences having low quality value among the sequences of the generated data set and to know the contamination rate of the chloroplast sequences, a relational sequence is found in a public database and is mapped using the CLC reference assembly tool, The chloroplast contamination rate of the set was determined, and WGS containing about 100 to 500 times the amount of chloroplast genome coverage was extracted and assembled using a CLC assembler. It is helpful to set the k-mer value to 64 and proceed with the assembly to prevent incorrect assembly of the column redundancy. After a gap filling process after assembly, the existing known chloroplast sequences are compared using the BLAST function, the chloroplast sequences are discriminated in the assembled contig data set, the sequence is determined, the overlap between the contig sequence is found, Chloroplast cotig (Fig. 8). Through the mapping of the generated chloroplast contig with the raw data, the part with the error is found, and through the raw data mapping, the fake gap, the column redundancy error, the single polymer error, and the SNP error, Respectively.

실시예Example 6. 완전한 핵 리보솜  6. Complete nuclear ribosome DNADNA 단위 서열의 어셈블리 방법 How to assemble unit sequences

45s 전사단위의 유전자영역과 ITS1(internal transcribed spacer 1) 및 ITS2 영역은 비교적 안정된 구조를 가지고있어 식물 진화와 분화 연구의 주요 타겟으로 이용되어 왔다. 식물의 45s nrDNA 한 개의 단위는 약 6~18kb 길이로 알려져 있으며 협조진화(concerted evolution)에 의해 신속히 한 식물 종 내에 균일화(homogenization) 되지만 일부 이종의(heterogeneous) 형태로도 존재한다고 보고되었다. nrDNA 단위의 길이 차이는 주로 유전자와 유전자 사이(IGS, intergenic spacer)에 존재하는 종렬 하위반복 요소(tandem subrepeat elements)의 길이 다양성에서 기인한다. 더불어 IGS에 존재하는 종렬 하위반복 요소는 부등 교차(unequal crossing over)에 의해 게놈 내에 이종의 형태를 발생시키므로 전체 유전체 해독이 완성된 식물에서도 완전한 nrDNA 단위가 포함되지 않은 경우가 대부분이다.The 45s transcriptional gene region, ITS1 (internal transcribed spacer 1) and ITS2 region have relatively stable structure and have been used as a major target of plant evolution and differentiation studies. One unit of 45s nrDNA of plant is known to be about 6-18kb in length and has been reported to be homogenized rapidly in a plant species by concerted evolution but also exists in some heterogeneous form. The difference in the length of the nrDNA units is mainly due to the length diversity of the tandem subrepeat elements present in the intergenic spacer (IGS). In addition, the column sub-repeating elements present in IGS generate heterogeneous forms in the genome by unequal crossing over, and therefore, most of them do not contain complete nrDNA units even in the plants in which the whole genome is detoxified.

본 발명에서는 엽록체 게놈 어셈블리와 함께, 식물 진화와 분화 연구의 중요한 대상인 45S nrDNA 반복 단위를 완성할 수 있는 간편하고 정확한 방법을 개발하였다. 제시하는 프로토콜은 45s nrDNA 전사단위와 더불어 IGS 서열을 함께 완성하는 방법으로 nrDNA 단위의 가장 대표적 서열을 제시하는 것인 반면 이종의 다른 종류의 nrDNA이 존재하지 않음을 의미하는 것은 아니다.In the present invention, together with the chloroplast genome assembly, a simple and accurate method for completing the 45S nrDNA repeat unit, which is an important object of plant evolution and differentiation studies, has been developed. The protocol presented is the most representative sequence of the nrDNA unit in a way that completes the IGS sequence together with the 45s nrDNA transcription unit, but does not mean that there is no different kind of nrDNA.

랜덤 세트에서 어셈블리되어 nrDNA 서열로 확인된 컨티그에는 거의 완전한 45s 서열을 가지고 있으며 전부 또는 일부의 IGS 서열이 포함되어 있었다. nrDNA 서열 어셈블리시 나타나는 오류에는 게놈 내 이종 형태 발생으로 대표적 하나의 서열을 확인하기가 어려운 경우, 종렬 배열(tandem array) 존재에 의한 반복의 붕괴로 N 발생이 생기는 경우 완전한 한 단위로 완성되지 않는 경우가 있었다. 하지만 아래와 같은 단계를 통해 거의 대부분 완전한 nrDNA 서열을 완성할 수 있었다.Contigs assembled in a random set and identified as nrDNA sequences had an almost complete 45s sequence and contained all or part of the IGS sequence. Errors in nrDNA sequence assemblies include heterozygosity in the genome, difficulty in identifying a representative sequence, occurrence of N due to repetitive collapse due to the presence of tandem arrays, . However, almost all of the complete nrDNA sequences could be completed through the following steps.

첫째, 45s 내의 보존적인 서열의 어셈블리에서는 이종 형태의 존재로 인해 SNP가 발생할 수 있었다. 이 경우는 주로 ITS1 및 ITS2에서 많이 나타나는데, 가장 높은 깊이의 뉴클레오티드를 선택하는 것이 대표적 형태를 찾는데 유리하였다. 또한 이종의 서열 리드를 선택하여 다른 다양한 타입을 동시에 찾을 수 있었다.First, in the assembly of conserved sequences within 45s, SNP could occur due to the presence of heterologous forms. In this case, mainly in ITS1 and ITS2, the selection of nucleotides with the highest depth was advantageous in finding a representative form. In addition, we were able to find different types of seeds at the same time by selecting heterogeneous sequence leads.

둘째, IGS 내 하위반복 요소들의 종렬 배열로 인한 반복의 붕괴 현상으로, 인삼의 IGS의 경우 8bp에서 641bp까지 다양한 크기의 반복이 나타났다. 641bp 반복 단위는 3.5 카피, 이는 다시 337bp, 149bp 단위로 종렬 배열하고 있어 많은 경우 잘못된 어셈블리가 생겨났다. 분석량(read length)보다 크거나 작은 다양한 반복들이 동시에 존재하면서도 반복 단위간에 약간의 서열차이가 존재하기 때문에 페어-엔드 리드들의 매핑 정보를 바탕으로 반복의 붕괴 현상을 해결할 수 있었다. Second, IGS repetition collapses due to the array of sub - repeating elements in IGS. IGS of ginseng showed various repetition sizes ranging from 8bp to 641bp. The 641bp repetition unit was 3.5 copies, which again were arranged in columns of 337bp, 149bp, and in many cases the wrong assembly occurred. Since there are several repeats larger or smaller than the read length and there are some sequence differences between the repeating units, it is possible to solve the collapse of repeats based on the mapping information of the pair ends.

셋째로 de novo 어셈블리로 생성된 하나의 컨티그가 45s rDNA 유전자영역과 일부 IGS 서열만 포함할 경우, 종렬 배열하는 45s rDNA 특징을 이용하여 생성된 컨티그 두 개를 병렬연결시키고, 그 사이에 인위적으로 50-200개의 뉴클레오티드들을 채워 하나의 새로운 컨티그를 인위적으로 만들었다. 만들어진 새로운 컨티그 파일을 Gapcloser(SOAP de novo 패키지) 프로그램를 통해 뉴클레오티드를 제거하는 과정을 반복 수행하고 원시 데이터 매핑을 통해 최종 단위를 완성할 수 있었다.
Third, when one congener produced by a de novo assembly contains only the 45s rDNA gene region and some IGS sequences, the two contigs generated using the 45s rDNA feature that is arranged in columns are connected in parallel, Filled up with 50-200 nucleotides and artificially created a new contig. The generated new contig file was subjected to the process of removing the nucleotide through the Gapcloser (SOAP de novo package) program, and the final unit was completed through the raw data mapping.

실시예Example 7. 벼 ' However, 니폰바레Nippon Bare ' 품종의 엽록체 및 핵 리보솜 'Chloroplasts and nuclear ribosomes of varieties DNADNA 를 사용한 검증Verification using

벼 유전체 해독은 거의 완전한 유전체 및 엽록체 서열이 완성되어 있는 표준품종 니폰바레(nipponbare)를 재료로 이용하여 위에서 제시한 방법으로 엽록체와 nrDNA를 완성하여 확인해보았다. 완성된 서열에 어셈블리 오류가 존재하는지 확인하기 위해 참조 서열과 비교하고 추가적인 PCR 및 ABI 시퀀싱 재확인 실험을 하였다.Rice genomic DNA was isolated by using the standard cultivar Nipponbare, which has almost complete genome and chloroplast sequence, and confirmed the chloroplast and nrDNA by the above method. Additional PCR and ABI sequencing re-confirmation experiments were performed to compare the reference sequence with the completed sequence to see if there was an assembly error.

결과적으로 본 발명의 방법에 의해 완성한 134,591bp의 엽록체 서열과 7,928bp rDNA 서열은 참조 서열과 정확히 일치하여 본 발명의 방법이 정확함을 보여주었다(도 9). 벼 IGS를 포함한 nrDNA 반복 단위는 45s(18s-5.8s-26s) 5,877bp와 ETS(external transcribed spacer)와 NTS(non-transcribed spacer)를 포함한 IGS는 2,051bp로 구성되어 있으며, 45s 전사단위의 인핸서로 알려진 하위-단위 254bp가 3 카피로 종렬 배열하고 있음을 확인하였다(도 10a). 완성된 벼 표준유전체 정보에는 9번 염색체 상단 말단 부위에 본 발명에서 완성한 단위와 100% 일치하는 약 4.5 카피가 존재함을 확인할 수 있었다(GenBank No. OSJNBb0013K10; AP008245.2).
As a result, the chloroplast sequence of 134,591 bp and the 7,928 bp rDNA sequence completed by the method of the present invention exactly coincided with the reference sequence, showing that the method of the present invention is correct (Fig. 9). The nrDNA repeat unit including rice IGS consists of 5,877 bp of 45s (18s-5.8s-26s) and 2,051bp of IGS including external transcribed spacer (ETS) and non-transcribed spacer (NTS) 254bp sub-units known as < RTI ID = 0.0 > a < / RTI > In the completed rice genome standard information, it was confirmed that about 4.5 copies corresponding to 100% of the unit of the present invention exist at the upper end of chromosome 9 (GenBank No. OSJNBb0013K10; AP008245.2).

실시예Example 8. 다양한 식물 종에 대한 엽록체 게놈의  8. Chloroplast genomes for various plant species dede novonovo 어셈블리 assembly

본 발명의 전술한 방법에 따라 다양한 식물 종 이끼류, 벼 근연종 식물 및 게놈 사이즈가 비교적 큰 인삼과 미국삼(Panax quinquefolius) 그리고 양파 등의 엽록체 게놈을 새롭게 완성하였는데, 인삼 '천풍' 품종은 크기가 156,248bp였으며 미국삼은 156,088bp였고, 두 종간에 염기서열 변이가 약 0.1% 정도로 관찰되었다(도 12). 종렬중복 영역 등 오류 발생가능 부위에 대해서는 PCR과 ABI 시퀀싱을 통해 재확인한 결과 정확한 엽록체 게놈이 생성된 것을 확인하였다. 반면 GenBank에 있는 인삼 엽록체 게놈 서열(GenBank No. AY582139.1,66)과는 SNP 127개, 삽입-결실(Indel) 71개의 변이가 발견되었는데, 이는 재료의 차이에 의해서 나타난 문제이거나 시퀀싱 오류의 가능성이 있었다. 한편 추가로 12개의 인삼 품종에 대해 본 발명의 방법으로 엽록체 게놈 서열을 완성하였을 때 전체 인삼 품종간 변이 지역은 SNP 10개, Indel 7개로 이내로 나타났으며, 기존에 보고된 엽록체 게놈 서열이 PCR 워킹(walking) 과정에서 시퀀싱 오류를 포함하였으리라 추정되었다(도 13). Variety of plant species according to the foregoing method of the present invention moss, rice plant and closely related species genome size is relatively large ginseng and American ginseng (Panax quinquefolius ) and onion. The size of the ginseng 'Chunpoong' was 156,248bp and the number of ginseng was 156,088bp. The nucleotide sequence variation between the species was about 0.1% (Fig. 12). We confirmed that the correct chloroplast genome was generated by PCR and ABI sequencing for error - prone regions such as column redundancy. On the other hand, mutations of 127 SNPs and 71 insertions (indel) were found in the GenBank genomic sequence (GenBank No. AY582139.1, 66) in GenBank, which may be caused by differences in materials or the possibility of sequencing errors . On the other hand, when the chloroplast genome sequence was completed for the 12 ginseng cultivars according to the present invention, the mutation regions of all the ginseng cultivars were within 10 SNPs and 7 Indels, and the previously reported chloroplast genome sequences were PCR- (Fig. 13).

추가로 벼 품종 7개의 WGS와 애리조나 지노믹스 연구소(Arizona Genomics Institute)에서 벼 유전자 지도 얼라인먼트 프로젝트(Oryza Map Alignment Project)를 위해 WGS를 수행한 벼 근연종 9개 및 근연속 나도겨풀(Leersia)의 0.25~4Gbp의 WGS 데이터를 분양받아, 본 발명의 방법으로 엽록체 게놈을 완성한 일부 적용 예를 표와 그림으로 표시하였다(표 7 및 도 14).In addition, seven WGS varieties and nine Arizona Genomics Institute WGSs for the Oryza Map Alignment Project and nine or five varieties of Leersia varieties, Some application examples in which the 4Gbp WGS data were distributed and the chloroplast genome was completed by the method of the present invention are shown in the tables and figures (Table 7 and FIG. 14).

Figure 112013120926693-pat00007
Figure 112013120926693-pat00007

또한, 해독된 엽록체 게놈 서열을 토대로 계통수(phylogenetic tree)를 조사한 결과, 벼 근연종 유사도를 확인할 수 있었다(도 14). 벼 내에서는 자포니카와 인디카 품종이 명확히 구분되었으며 같은 아종 그룹에 속한 품종간에는 전혀 변이가 관찰되지 않았다. 더불어 인디카와 자포니카 잡종 유래된 품종인 통일, 다산, 밀양 23호는 최종 모본의 엽록체형과 동일함을 보여주고 있었다(도 15).
In addition, a phylogenetic tree was examined based on the decoded chloroplast genome sequence, and it was confirmed that the degree of similarity in the vicinity of rice (Fig. 14). In rice, Japonica and Indica cultivars were clearly distinguished, and no variation was observed among the varieties belonging to the same subspecies group. In addition, Indica and Japonica hybrid varieties Tongil, Dasan and Milyang 23 showed the same chloroplast type as the final model (Fig. 15).

실시예Example 9. 벼 및 인삼 종에 대한 완전한 핵 리보솜  9. Complete nuclear ribosome for rice and ginseng species DNADNA 단위의  Unit of dede novonovo 어셈Assembly 블리Blury

인삼품종 천풍과 미국삼의 전체길이 nrDNA 단위는 각각 11,091bp와 11,169 bp로 완성되었으며 45s 전사단위 길이는 각각 5,856bp, 5,853bp이었고 IGS 길이는 각각 5,235bp, 5,316bp로 벼보다 긴 것으로 나타났으며 상동성이 거의 존재하지 않았다(도 10b 및 10c). PCR 결과 예상되는 길이의 산물이 확인되어 어셈블리가 정확하다고 예측하였다(도 10d 및 10e). 하지만 인삼 IGS를 증폭한 그림에서 길이 약 500bp 의 부가적인 밴드가 증폭되었는데(도 10e 및 10f), 이는 nrDNA 단위의 이형 타입이 존재하여 나타나거나 핵 게놈 내 인형성부위(NOR) 지역이 아닌 다른 지역에 존재하는 rDNA유래 조각으로부터 증폭되었을 것으로 추측하였다. IGS 내의 5' ETS에 위치하는 45s 전사단위의 인핸서로 알려진 하부 반복의 반복 수는 천풍은 641bp 3.5 카피, 미국삼은 640bp 3.5 카피(변수:2 3 5, 일치율 95%) 종렬 배열이다. 벼 17종 중 야생벼(Oryza nivara)는 다른 종과 다르게 게놈을 완성할 수 없었는데 이는 야생벼 게놈 내 이형의(heterogeneous) rDNA가 혼재하기 때문으로 추측되었다. 벼 17종의 45S nrDNA 부위를 비교하였을 때 ITS1 및 ITS2 영역에서 특히 변이가 심하지만 유전자 영역에서도 일부의 변이가 관찰되며(도 16), 인삼 품종간 변이는 5.8s 지역에서 SNP 하나가 나타났다. 인삼과 미국삼의 경우 IGS에서 심한 차이를 보이며 일부 유전자 영역과 ITS 영역에서 SNP가 관찰되었다. 또한 본 발명으로 얻어진 인삼 13종과 벼 16종(O. nivara 제외)의 45S rDNA 지역 서열로 계통발생분석(phylogenetic analysis)을 확인할 수 있었다(도 17 및 도 18).
The lengths of the 45s transcriptional units were 5,856bp and 5,853bp, respectively, and the lengths of IGS were 5,235bp and 5,316bp, respectively, longer than that of rice. There was almost no homology (Figs. 10B and 10C). PCR confirmed the product of the expected length and predicted that the assembly was correct (Figures 10d and 10e). However, an additional band of about 500 bp in length was amplified (Fig. 10 (e) and (10 f)) in the amplification of ginseng IGS, indicating that a variant type of nrDNA unit exists or a region other than the NOR region in the nuclear genome Derived rDNA fragments present in E. coli. The repeat number of the lower repetition known as the enhancer of the 45s transcription unit located in the 5 'ETS in the IGS is a serial arrangement of 3.5 copies of 641bp in chestnut and 3.5 copies of 640bp in 3.5 copies (variable: 95%). Of the 17 rice species, the wild rice ( Oryza nivara ) was not able to complete the genome differently from other species, presumably because of the heterogeneous rDNA in the wild rice genome. When the 45S nrDNA regions of 17 rice species were compared, although some mutations were observed particularly in the regions of ITS1 and ITS2 (Fig. 16), the mutation among the ginseng cultivars showed a SNP in the region of 5.8s. Ginseng and USS showed significant differences in IGS and SNP in some gene regions and ITS regions. Phylogenetic analysis of the 15S rDNA region sequences of 13 kinds of ginseng and 16 kinds of rice (except O. nivara ) obtained by the present invention was confirmed (FIGS. 17 and 18).

실시예Example 10. 엽록체 서열 완성 후 종 및 품종 식별 등  10. Identification of species and variety after completion of chloroplast sequence 마커Marker 개발 검증 Development verification

본 발명의 방법을 이용하여 다양한 식물 100종 이상에 대해 엽록체와 rDNA를 완성할 수 있었으며, 이끼류의 경우 미토콘드리아도 완전하게 완성할 수 있었다. 완성된 서열을 바탕으로 종간 차이를 보이는 서열에 대해 종간 식별이 가능한 다양한 PCR 마커를 효율적으로 개발할 수 있으며 이는 종판별, 한약재의 기원 판별, 분류 등을 위한 barcoding 마커 개발에 매우 효율적으로 활용될 수 있음을 보여주었다(도 19). 또한 동일 종(species) 의 다른 품종에 대해 엽록체 서열을 완성하였을 때 품종 특이 마커를 개발할 수 있었는데 인삼 두 품종간에도 도 20과 같이 세군데 특이적인 마커를 개발할 수 있었으며 이를 통해 품종식별 및 품종권리 보호 등에 활용될 수 있는 마커 개발의 수단으로 매우 유용함을 확인하였다(도 21). Using the method of the present invention, it was possible to complete chloroplasts and rDNA for more than 100 kinds of plants. In case of lichen, mitochondria could also be completely completed. Based on the completed sequence, various PCR markers can be efficiently developed that can identify the species from each other and can be used effectively for the development of barcoding markers for identification, classification and classification of herbal medicines. (Fig. 19). In addition, when the chloroplast sequence was completed for other varieties of the same species, a variety specific marker could be developed. As shown in FIG. 20, three specific markers could be developed between the two ginseng varieties, thereby utilizing them for breed identification and protection of breed rights It is very useful as a means of developing a marker that can be used (Fig. 21).

뿐만 아니라 rDNA 서열을 통해 핵내 종간 및 품종간 식별 고유 마커를 개발하여 종구분 및 품종 식별 등에 활용될 수 있는 마커 개발에 효율적으로 활용될 수 있음을 확인하였다(도 22).In addition, it has been confirmed that the marker can be efficiently used for marker development that can be used for species classification and breed identification by developing a unique markers for identifying interspecies species and cultivars through rDNA sequences (FIG. 22).

Claims (8)

(a) 생물체의 전체 게놈을 대상으로 차세대 시퀀싱(NGS, next generation sequencing) 방법으로 염기서열을 해독하는 단계;
(b) 상기 (a) 단계의 염기서열 해독을 통해 생성되는 리드(서열조각)들을 이용하여 엽록체, 미토콘드리아 또는 핵 리보솜 DNA의 게놈 커버리지 양에 기초하여 NGS 데이터 세트를 생성하는 단계;
(c) 상기 (b) 단계의 생성된 NGS 데이터 세트의 리드들을 어셈블리 소프트웨어를 사용하여 어셈블리하는 단계;
(d) 상기 (c) 단계의 어셈블리 후 생성된 컨티그에서 엽록체, 미토콘드리아 및 핵 리보솜 DNA(nrDNA, nuclear ribosomal DNA) 서열로 이루어진 군으로부터 선택되는 하나 이상의 서열을 포함하는 컨티그들을 분리하는 단계; 및
(e) 상기 (d) 단계의 분리된 컨티그들을 염기서열 비교 프로그램을 이용하여 연결하고 어셈블리 중 발생한 오류를 수정하는 단계를 포함하는 것을 특징으로 하는 생물체의 엽록체, 미토콘드리아 또는 핵 리보솜 DNA의 완전한 게놈 서열을 단독으로 또는 동시에 해독하는 방법.
(a) decoding a nucleotide sequence of a whole genome of an organism by a next generation sequencing (NGS) method;
(b) generating an NGS data set based on the genomic coverage amount of chloroplast, mitochondrial or nuclear ribosomal DNA using the leads (sequence fragments) generated through the nucleotide sequence decode of step (a);
(c) assembling leads of the generated NGS data set of step (b) using assembly software;
(d) isolating contigs comprising at least one sequence selected from the group consisting of chloroplasts, mitochondria, and nuclear ribosomal DNA (nrDNA) sequences in the contig produced after assembly in step (c); And
(e) linking the separated contigs of step (d) using a nucleotide sequence comparison program and correcting errors occurring in the assembly, wherein the complete genomic sequence of the chloroplast, mitochondrial or nuclear ribosomal DNA of the organism Either alone or simultaneously.
제1항에 있어서, 엽록체 또는 미토콘드리아의 완전한 염기서열을 해독하는 (e) 단계는, 상기 (d) 단계의 분리된 컨티그 중 엽록체 서열을 포함하는 컨티그를 정렬하고 연결시켜 완전한 원형 서열로 만든 후, 생성된 원시 데이터 서열을 매핑하고 어셈블리 오류를 제거하는 단계를 포함하는 것을 특징으로 하는 방법.The method according to claim 1, wherein the step (e) of decrypting the complete nucleotide sequence of the chloroplast or mitochondrion comprises aligning and ligating the cotig containing the chloroplast sequence among the isolated contigs of step (d) Then mapping the generated raw data sequence and eliminating assembly errors. 제1항에 있어서, 핵 리보솜 DNA의 완전한 염기서열을 해독하는 (e) 단계는, 상기 (d) 단계의 분리된 컨티그 중 45s rDNA 서열을 포함하는 컨티그를 인위적으로 두 개 나열한 후, 그 사이에 인위적인 갭을 부여하고, 갭 클로저(Gap closer) 프로그램을 사용하여 유전자와 유전자 사이(IGS, intergenic spacer) 영역의 물리적 갭을 채우고 완전한 45s rDNA 단위를 완성하고, 완성된 완전한 45s rRNA 단위의 원시 데이터 서열을 매핑하고 어셈블리 오류를 제거하는 단계를 포함하는 것을 특징으로 하는 방법.The method according to claim 1, wherein the step (e) of decrypting the complete nucleotide sequence of the nuclear ribosomal DNA comprises artificially arranging two contigs comprising the 45s rDNA sequence of the separated contigs of step (d) , And using a gap closer program to fill the physical gaps in the IGS (intergenic spacer) region, complete a complete 45s rDNA unit, and complete the complete 45s rRNA unit primitive Mapping the data sequence and eliminating assembly errors. 제1항에 있어서, 생물체는 미생물, 하등 광합성 생물체, 버섯류, 거대 유전체를 가진 고등 식물체, 곤충, 어류 또는 동물인 것을 특징으로 하는 방법.The method according to claim 1, wherein the organism is a microorganism, a lower photosynthetic organism, a mushroom, a higher plant having a large genome, an insect, a fish or an animal. 제1항에 있어서, 상기 NGS 데이터 세트는 엽록체 게놈의 50~500배를 커버리지 할 수 있는 양인 것을 특징으로 하는 방법.2. The method of claim 1, wherein the NGS data set is an amount that can cover 50 to 500 times the chloroplast genome. 제1항에 있어서, 상기 어셈블리 소프트웨어는 CLC de novo 어셈블리 소프트웨어 또는 SOAP de novo 어셈블리 소프트 웨어인 것을 특징으로 하는 방법.2. The method of claim 1, wherein the assembly software is CLC de novo assembly software or SOAP de novo assembly software. 제1항에 있어서, 상기 어셈블리 오류는 염기서열 오류, 가짜 갭(false gap), 종렬중복(tandem repeat) 오류, 단일중합체(monopolymer) 오류 또는 단일염기 다형성(SNP) 오류인 것을 특징으로 하는 방법.2. The method of claim 1, wherein the assembly error is a base sequence error, a false gap, a tandem repeat error, a monopolymer error, or a single nucleotide polymorphism (SNP) error. 제1항 내지 제7항 중 어느 한 항의 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체.A recording medium on which a computer-readable program for performing the method according to any one of claims 1 to 7 is recorded.
KR1020130167982A 2013-12-31 2013-12-31 Method for determining whole genome sequence of chloroplast, mitochondria or nuclear ribosomal DNA of organism using next generation sequencing KR101447593B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020130167982A KR101447593B1 (en) 2013-12-31 2013-12-31 Method for determining whole genome sequence of chloroplast, mitochondria or nuclear ribosomal DNA of organism using next generation sequencing
PCT/KR2014/010999 WO2015102226A1 (en) 2013-12-31 2014-11-17 Method for sequencing whole genome sequences of chloroplast, mitochondria or nuclear ribosomal dna of organism using next generation sequencing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130167982A KR101447593B1 (en) 2013-12-31 2013-12-31 Method for determining whole genome sequence of chloroplast, mitochondria or nuclear ribosomal DNA of organism using next generation sequencing

Publications (1)

Publication Number Publication Date
KR101447593B1 true KR101447593B1 (en) 2014-10-07

Family

ID=51996655

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130167982A KR101447593B1 (en) 2013-12-31 2013-12-31 Method for determining whole genome sequence of chloroplast, mitochondria or nuclear ribosomal DNA of organism using next generation sequencing

Country Status (2)

Country Link
KR (1) KR101447593B1 (en)
WO (1) WO2015102226A1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101632881B1 (en) 2015-11-26 2016-06-23 주식회사 지앤시바이오 Sequencing method of genomic DNA end sequence using NGS
KR101665632B1 (en) 2016-06-14 2016-10-14 주식회사 지앤시바이오 Sequencing method of cDNA end sequence using NGS
KR101798229B1 (en) 2016-12-27 2017-12-12 주식회사 천랩 ribosomal RNA sequence extraction method and microorganism identification method using extracted ribosomal RNA sequence
WO2021066465A1 (en) * 2019-10-01 2021-04-08 (주)컨투어젠 Method and apparatus for extracting nucleic acid from nucleic acid-containing sample while retaining 2-dimensional position information, and method for analyzing genome including position information using same

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784199A (en) * 2017-10-18 2018-03-09 中国科学院昆明植物研究所 A kind of organelle gene group screening technique based on STb gene sequencing result
CN112259169B (en) * 2020-11-18 2024-01-30 东北农业大学 Method for rapidly obtaining chloroplast genome from transcriptome data
CN112802554B (en) * 2021-01-28 2023-09-22 中国科学院成都生物研究所 Animal mitochondrial genome assembly method based on second-generation data

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101313087B1 (en) 2011-10-31 2013-09-30 삼성에스디에스 주식회사 Method and Apparatus for rearrangement of sequence in Next Generation Sequencing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101313087B1 (en) 2011-10-31 2013-09-30 삼성에스디에스 주식회사 Method and Apparatus for rearrangement of sequence in Next Generation Sequencing

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Nucleic acids research 38.21 (2010): 7400-7409. *
PloS one 8.8 (2013): e70624. *
Trends in biotechnology 27.9 (2009): 522-530. *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101632881B1 (en) 2015-11-26 2016-06-23 주식회사 지앤시바이오 Sequencing method of genomic DNA end sequence using NGS
KR101665632B1 (en) 2016-06-14 2016-10-14 주식회사 지앤시바이오 Sequencing method of cDNA end sequence using NGS
KR101798229B1 (en) 2016-12-27 2017-12-12 주식회사 천랩 ribosomal RNA sequence extraction method and microorganism identification method using extracted ribosomal RNA sequence
WO2018124661A1 (en) * 2016-12-27 2018-07-05 주식회사 천랩 Method for obtaining ribosomal rna (rrna) sequence information and method for identifying microorganism using rrna
WO2021066465A1 (en) * 2019-10-01 2021-04-08 (주)컨투어젠 Method and apparatus for extracting nucleic acid from nucleic acid-containing sample while retaining 2-dimensional position information, and method for analyzing genome including position information using same

Also Published As

Publication number Publication date
WO2015102226A1 (en) 2015-07-09

Similar Documents

Publication Publication Date Title
KR101447593B1 (en) Method for determining whole genome sequence of chloroplast, mitochondria or nuclear ribosomal DNA of organism using next generation sequencing
Zhebentyayeva et al. Genetic characterization of worldwide Prunus domestica (plum) germplasm using sequence-based genotyping
Luo et al. The pomegranate (Punica granatum L.) draft genome dissects genetic divergence between soft‐and hard‐seeded cultivars
Su et al. High density linkage map construction and mapping of yield trait QTLs in maize (Zea mays) using the genotyping-by-sequencing (GBS) technology
Vargas et al. Conflicting phylogenomic signals reveal a pattern of reticulate evolution in a recent high‐Andean diversification (Asteraceae: Astereae: Diplostephium)
Chung et al. Population structure and domestication revealed by high-depth resequencing of Korean cultivated and wild soybean genomes
Zhang et al. High-density interspecific genetic maps of kiwifruit and the identification of sex-specific markers
Chen et al. Genetic diversity, population structure, and linkage disequilibrium of a core collection of Ziziphus jujuba assessed with genome-wide SNPs developed by genotyping-by-sequencing and SSR markers
Yang et al. Target SSR-Seq: a novel SSR genotyping technology associate with perfect SSRs in genetic analysis of cucumber varieties
Li et al. Frequency and type of inheritable mutations induced by γ rays in rice as revealed by whole genome sequencing
Evans et al. Extensive variation in the density and distribution of DNA polymorphism in sorghum genomes
Cui et al. Genetic diversity, population structure, and linkage disequilibrium of an association-mapping panel revealed by genome-wide SNP markers in sesame
Suresh et al. Tomato genomic resources database: an integrated repository of useful tomato genomic information for basic and applied research
Pucker et al. A de novo genome sequence assembly of the Arabidopsis thaliana accession Niederzenz-1 displays presence/absence variation and strong synteny
Shirasawa et al. DNA marker applications to molecular genetics and genomics in tomato
Van et al. Genome-wide SNP discovery in mungbean by Illumina HiSeq
Adam-Blondon et al. Genome sequence initiatives
Chen et al. Development of gene-based SSR markers in rice bean (Vigna umbellata L.) based on transcriptome data
Tello et al. A novel high-density grapevine (Vitis vinifera L.) integrated linkage map using GBS in a half-diallel population
Sierro et al. Whole genome profiling physical map and ancestral annotation of tobacco H icks B roadleaf
Liang et al. De novo transcriptome assembly of pummelo and molecular marker development
Jiao et al. Genome‐wide characterization and expression analysis of genetic variants in sweet orange
de Miguel et al. Evidence of intense chromosomal shuffling during conifer evolution
Chagné Whole genome sequencing of fruit tree species
Cubry et al. An initial assessment of linkage disequilibrium (LD) in coffee trees: LD patterns in groups of Coffea canephora Pierre using microsatellite analysis

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170824

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180820

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190902

Year of fee payment: 6