KR20180046592A - Method for selecting and utilizing tag-SNP for discriminating haplotype in gene unit - Google Patents

Method for selecting and utilizing tag-SNP for discriminating haplotype in gene unit Download PDF

Info

Publication number
KR20180046592A
KR20180046592A KR1020160141930A KR20160141930A KR20180046592A KR 20180046592 A KR20180046592 A KR 20180046592A KR 1020160141930 A KR1020160141930 A KR 1020160141930A KR 20160141930 A KR20160141930 A KR 20160141930A KR 20180046592 A KR20180046592 A KR 20180046592A
Authority
KR
South Korea
Prior art keywords
snp
gene
snps
tag
haplotype
Prior art date
Application number
KR1020160141930A
Other languages
Korean (ko)
Other versions
KR101911307B1 (en
Inventor
조성환
이정희
Original Assignee
주식회사 씨더스 농업회사법인
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 씨더스 농업회사법인 filed Critical 주식회사 씨더스 농업회사법인
Priority to KR1020160141930A priority Critical patent/KR101911307B1/en
Publication of KR20180046592A publication Critical patent/KR20180046592A/en
Application granted granted Critical
Publication of KR101911307B1 publication Critical patent/KR101911307B1/en

Links

Images

Classifications

    • G06F19/22
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/6895Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for plants, fungi or algae
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Botany (AREA)
  • Biochemistry (AREA)
  • Genetics & Genomics (AREA)
  • Mycology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

The present invention relates to a tag-single nucleotide polymorphism (SNP) selection and utilization technology for distinguishing a haplotype from a gene unit, and more specifically, to a tag-SNP selection technology having higher information strength than an existing method for just arbitrarily selecting and using mutation generated by an SNP. Each tag-SNP selected through the technology of the present invention may represent one gene, may distinguish a haplotype of each gene, and includes position information in a chromosome of a corresponding gene and non-synonymous SNP information causing changes in amino acids. Therefore, the efficiency of detecting a gene related to a target trait of a sarcoma is significantly increased when the tag-SNP having higher information strength than an existing SNP selected and used in a random manner is used for QTL mapping and GWAS analysis.

Description

유전자 단위에서 단상형을 구분하는 태그-SNP 선발 및 활용 기술{Method for selecting and utilizing tag-SNP for discriminating haplotype in gene unit}[0001] The present invention relates to a method for selecting a SNP for discriminating a single-phase type from a gene unit,

본 발명은 유전자 단위에서 단상형을 구분하는 태그-SNP 선발 및 활용 기술에 관한 것이다.The present invention relates to a tag-SNP selection and utilization technique for distinguishing a single-phase type in a gene unit.

효율적 작물 육종을 위해 분자마커의 요구는 꾸준히 증가하고 있으며 이에 따라 분자마커의 개발은 차세대 염기서열 생산 장비의 발달로 더욱 가속화되고 있다. 유전체 내 존재하는 다양한 구조적 변이는 분자마커로 개발되어 품종을 구분하거나 주요한 형질에 연관된 유전자를 찾고 활용하는데 매우 중요한 정보이다. 양적형질유전자좌 맵핑(QTL mapping), 전장게놈연관분석(GWAS; genome-wide association study) 등의 분석기술은 형질연관 마커를 탐색하는데 널리 사용되고 있다. The demand for molecular markers for effective crop breeding is steadily increasing, and the development of molecular markers is accelerating with the development of next-generation sequencing equipment. Various structural variations present in the genome are developed as molecular markers and are very important information to distinguish cultivars or to find and utilize genes associated with major traits. Analytical techniques such as quantitative trait mapping (QTL mapping) and genome-wide association study (GWAS) are widely used to explore trait-related markers.

분자마커는 유전체 구조변이의 성격에 따라 크게는 단일염기다형성(SNP; Single Nucleotide Polymorphism), 숏 삽입/결실(short insertion/deletion), 단순서열반복(SSR) 분자마커로 나뉜다. 탐지방법에 따라서는 중합효소연쇄반응(PCR) 기반의 탐지 방법, 염기서열해독(sequencing) 방식의 탐지 방식, 혼성화(hybridization) 방식으로 나뉜다. 변이 정보 탐색 위치에 따라서는 유전체(genome) 전체에서 선발하는 방식 혹은 발현된 유전자서열조각(EST) 부위에서의 선발 방식을 활용한다. Molecular markers are classified into single nucleotide polymorphism (SNP), short insertion / deletion, and simple sequence repeat (SSR) molecular markers depending on the nature of the genetic variation. Depending on the detection method, it can be classified into a PCR-based detection method, a sequencing method, and a hybridization method. Depending on the position of the mutation information search, a selection method is used in the whole genome or a selection method in the expressed gene sequence fragment (EST) region.

기존에는 위의 종류처럼 유전체 변이를 탐지하는 것 자체가 중요했다면 2007년 이후로 차세대염기서열해독 기술(NGS)의 등장으로 대규모 염기서열 데이터의 생산이 가능해졌고, 이를 통해 유전체 내에 존재하는 구조변이를 확인할 수 있는 분자마커를 빠르게 대규모로 탐지할 수 있게 되어 변이 탐지에서 양적인 제약이 해결되었다. In the past, if it was important to detect the genetic mutation as in the above type, since 2007, the next generation nucleotide sequencing technology (NGS) has enabled the production of large-scale sequence data, Quantitative molecular markers can be quickly and rapidly detected, resolving quantitative constraints in mutation detection.

따라서 QTL 맵핑, GWAS 등에 바로 활용할 수 있는 고품질의 분자마커(SNP) 후보를 선발하는 것이 중요하게 되었다. 고품질의 분자마커라 함은 최소한의 숫자로 형질 연관된 유전자 및 분자마커를 탐지할 수 있는 마커를 의미한다. 그러나 유전자 자체를 대변하는 변이 정보에 대한 개념, 발굴 기술, 유전자 대변 여부에 대해서는 현재까지 검토된 바가 없다.Therefore, it is important to select candidates for high-quality molecular markers (SNPs) that can be directly used for QTL mapping and GWAS. High quality molecular markers refer to markers capable of detecting gene and molecular markers with a minimum number of traits. However, the concept of mutation information representing the gene itself, excavation techniques, and whether gene mutation has not been studied to date.

SNP는 유전체 내에 가장 빈번하게 발생하는 구조변이의 한 종류로, 목표 유전자 혹은 염색체 위치에서도 SNP 변이정보를 확보하기 용이하여 가장 널리 활용되는 분자마커이다. 그러나 과도하게 많은 SNP를 모두 확인하는데 소요되는 실험적 비용을 감당할 수 없기 때문에 분자마커로 활용할 수 있는 최소한의 개수로 줄이고자 시도 중이나 현재까지는 인간 유전체 연구 분야에서만 태그-SNP(tag-SNP) 개념을 도입하여 연구가 진행되어 왔으며, 식물은 아직 연구가 진행된 바 없다.SNP is one of the most frequently occurring structural mutations in the genome and is the most widely used molecular marker because it is easy to obtain SNP mutation information at the target gene or chromosome position. However, in order to reduce the number of molecular markers that can be used as a molecular marker because the experimental cost required to identify all the excess SNPs can not be met, the concept of tag-SNP (tag-SNP) is introduced only in the field of human genome research And the research has not yet been conducted on the plants.

유전체 내에서 태그-SNP를 선발하는 방법은 블록 기반의 방식(block based methods)과 게놈 전체를 보는 방식(genome-wide approaches)으로 크게 2가지의 카테고리로 나누어 개발되고 있다. 블록 기반의 방식은 미리 정의된 단상형 블록 구조(haplotype block structure)에 의존한다. 염색체 교차(crossing over) 빈도를 기준으로 블록을 구분되게 되면 블록 내에는 교차가 매우 적은 수준에서 발생되므로 블록 내에 단상형(haplotype)은 아주 적은 변이를 가지고 있게 된다.Methods for selecting tag-SNPs in genomes are divided into two categories: block-based methods and genome-wide approaches. The block-based approach relies on a predefined haplotype block structure. If the blocks are separated based on the frequency of crossing over, crossing occurs within a very small level, so that haplotypes in the block have very few variations.

한편, 한국공개특허 제2012-0121500호에는 '십자화과 식물 유전자의 진화 및 기능 연구를 위한 발현 유전체 비교분석 시스템 구축 방법'이 개시되어 있고, 한국공개특허 제2011-0064699호에는 '단일염기다형성(SNP) 유전자형의 분석 방법 및 장치'가 개시되어 있다. 그러나 본 발명의 유전자 단위에서 단상형을 구분하는 태그-SNP 선발 및 활용 기술에 대해서는 기재된 바가 없다.Korean Patent Publication No. 2012-0121500 discloses a method for constructing a comparative analysis system for an expressed genome for the evolution and function study of cruciferous plant genes, Korean Patent Publication No. 2011-0064699 discloses a method for constructing a SNP ) ≪ / RTI > However, the tag-SNP selection and utilization technique for distinguishing single-phase type from the gene unit of the present invention has not been described.

본 발명은 상기와 같은 요구에 의해 도출된 것으로서, 본 발명자는 현재 육종 재료로 이용되거나 토마토 종 전체를 대변할 수 있는 다수의 토마토 계통의 유전체 데이터를 확보하여 유전체 정보로부터 유전자 영역에 존재하는 SNP 중 아미노산의 치환으로 단백질 구조 변화를 야기하여 유전자(단백질) 기능에 영향을 미칠 가능성이 높은 비동의 SNP(non-synonymous SNP)를 태그-SNP로 선발하였으며, 상기 선발된 태그-SNP는 QTL 맵핑, GWAS 분석 등에 이용될 수 있으며, 연관 비평형(LD; linkage disequilibrium) 분석을 진행하여 추가적으로 SNP의 수를 더욱 줄여 여교잡 선발 등에 활용할 수 있음을 확인함으로써, 본 발명을 완성하였다.DISCLOSURE OF THE INVENTION The present invention has been made in view of the above needs, and the present invention has been made in view of the above problems, and it is an object of the present invention to provide genome data of a large number of tomato lines which can be used as a breeding material or represent whole tomato species, A non-synonymous SNP (non-synonymous SNP) which has a high possibility of affecting the function of a gene (protein) due to the substitution of an amino acid was selected as a tag-SNP, and the selected tag-SNP was subjected to QTL mapping, GWAS analysis And the present inventors have completed the present invention by confirming that linkage disequilibrium (LD) analysis can be further performed to further reduce the number of SNPs and to be used for screening.

상기 과제를 해결하기 위해, 본 발명은 대상 작물의 표준 유전체(reference genome) 염기서열에 대해 정렬(alignment)한 후, 표준 유전체와 대비되는 SNP를 대량으로 추출하는 단계; 추출된 SNP가 발생한 위치에 해당하는 대상 작물 계통들의 SNP를 대상으로 매트릭스 형태로 만드는 단계; 상기 SNP가 발생한 위치가 유전자에서 발생한 SNP를 선발하는 단계; 유전자를 대변하는 단상형(haplotype)를 구분할 수 있는 SNP의 집합을 선발하는 단계; 및 상기 SNP 중 아미노산의 치환을 야기하는 비동의 SNP(non-synonymous SNP)를 태그-SNP로 선발하는 단계;를 포함하는 형질 연관 유전자 탐지의 효율성이 증진된 태그-SNP 선발 방법을 제공한다.In order to solve the above-mentioned problems, the present invention provides a method for producing a genome comprising the steps of: aligning a reference genome of a target crop; Making SNPs of target crop lines corresponding to the location of the extracted SNPs in a matrix form; Selecting a SNP generated at a position where the SNP occurs; Selecting a set of SNPs capable of distinguishing a haplotype representing a gene; And selecting a non-synonymous SNP that causes amino acid substitution among the SNPs as a tag-SNP. The present invention also provides a tag-SNP selection method in which the efficiency of the method for detecting a transgene-related gene is enhanced.

또한, 본 발명은 상기 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체를 제공한다.The present invention also provides a recording medium on which a computer-readable program for performing the above method is recorded.

본 발명은 단순히 블록(block) 단위의 넓은 수준에서 발생한 단일 염기서열 치환(SNP)에 의해 발생된 변이를 임의로 선발하여 사용하던 기존의 방법에 비하여 정보력이 높은 태그-SNP를 선발하는 기술이다. 본 기술을 통해 선발된 각각의 태그-SNP는 하나의 유전자를 대변할 수 있고, 각 유전자의 단상형(haplotype)을 구분할 수 있으며, 해당 유전자의 염색체 내 위치 정보, 아미노산의 변화를 야기하는 비동의 SNP(non-synonymous SNP)의 정보를 담고 있다. 따라서 기존 무작위 방식으로 선발되어 사용되던 SNP에 비하여 정보력이 높은 태그-SNP를 활용해서 QTL 맵핑, GWAS 분석 등에 활용하면 육종의 목표로 하는 형질에 관련된 유전자를 탐지하는 효율을 확연히 증대시킬 것이다.The present invention is a technology for selecting tag-SNP having a higher information power than the conventional method in which a mutation generated by a single nucleotide sequence substitution (SNP) generated at a wide level of a block unit is arbitrarily selected and used. Each tag-SNP selected by this technology can represent one gene, can distinguish haplotypes of each gene, and can be used to identify the position of a gene in a chromosome, SNP (non-synonymous SNP) information. Therefore, using QTL mapping and GWAS analysis using tag-SNP with high information power compared to SNP selected by existing random method, it will significantly increase the efficiency of detecting genes related to the target traits of breeding.

도 1은 유전자 단상형(haplotype) 및 태그-SNP(tag-SNP)를 설명하는 모식도이다.
도 2는 대규모 유전체 염기서열 기반 tag-SNP 선발 분석 모식도이다.
도 3은 솔라늄 라이코퍼시쿰 세라시포메(Solanum lycopersicum var. cerasiforme) 계통의 SNP 유형에 따른 개수를 나타낸다.
도 4는 솔라늄 라이코퍼시쿰(Solanum lycopersicum) 계통의 SNP 유형에 따른 개수를 나타낸다.
도 5는 솔라늄 핌피넬리폴리움(Solanum pimpinellifolium) 계통의 SNP 유형에 따른 개수를 나타낸다.
도 6은 단순 SNP 기반 토마토 계통수(phylogenetic tree)를 나타낸다.
도 7은 SNP 발생 개수에 따른 토마토 유전자 개수를 나타낸다.
도 8은 유전자 단상형(haplotype) 분석 중간 결과를 나타낸다.
도 9는 토마토 상위 3개 계통의 유전자 단상형(haplotype) 분석 결과를 나타낸다.
도 10은 토마토 유전자 단상형(haplotype) 분석 결과를 나타낸다.
도 11은 태그-SNP(tag-SNP) 기반 토마토 계통수(phylogenetic tree)를 나타낸다.
도 12는 솔라늄 라이코퍼시쿰의 LD 블록을 나타낸다.
도 13은 솔라늄 핌피넬리폴리움의 LD 블록을 나타낸다.
1 is a schematic diagram illustrating a gene haplotype and a tag-SNP (tag-SNP).
2 is a schematic diagram of a large-scale genome sequence-based tag-SNP selection assay.
Figure 3 shows the number according to SNP type of Solanum lycopersicum var cerasiforme strain.
Figure 4 shows the number according to the SNP type of the Solanum lycopersicum strain.
Figure 5 shows the number according to SNP type of Solanum pimpinellifolium system.
Figure 6 shows a simple SNP-based phylogenetic tree.
7 shows the number of tomato genes according to the number of SNP occurrences.
Figure 8 shows the intermediate results of the gene haplotype analysis.
Fig. 9 shows the results of analysis of gene haplotypes of the three tomato lines.
Fig. 10 shows the results of a tomato gene haplotype analysis.
Figure 11 shows a tag-SNP based tomato phylogenetic tree.
Figure 12 shows the LD block of Solanum licocercum.
13 shows the LD block of Solanum pimpinelipolyum.

본 발명의 목적을 달성하기 위하여, 본 발명은In order to achieve the object of the present invention,

a) 대상 작물 전체를 대변할 수 있는 대상 작물 계통의 유전체(genome) 염기서열 데이터를 생산하거나 공개 데이터베이스에서 수집하는 단계;a) producing genome sequence data of the subject crop line that can represent the entire crop, or collecting it in a public database;

b) 상기 a) 단계의 염기서열의 품질(quality)을 측정하고, 기준 값 이상 품질의 서열로 선별(filtering)하는 단계;b) measuring the quality of the base sequence in step a), and filtering the base sequence with a sequence having a quality of at least a reference value;

c) 상기 b) 단계의 선별된 각각의 염기서열을 대상 작물의 표준 유전체(reference genome) 염기서열에 대해 정렬(alignment)한 후, 표준 유전체와 대비되는 SNP를 대량으로 추출하는 단계;c) aligning each of the selected base sequences of step b) with a reference genome sequence of the target crop, and then extracting a large amount of SNPs compared with the standard genome;

d) 상기 c) 단계에서 추출된 SNP가 발생한 위치에 해당하는 대상 작물 계통들의 SNP를 대상으로 매트릭스(matrix) 형태로 만드는 단계;d) making SNPs of target crop lines corresponding to the location of the SNP extracted in step c) as a matrix;

e) 상기 d) 단계에서 매트릭스 형태로 정리된 대상 작물 계통의 SNP를 유전자 별로 분류하여 각 유전자를 대변하는 SNP를 분류하는 단계;e) classifying the SNPs of the target crop lineage sorted in the form of a matrix in the d) step by gene and classifying the SNPs representing each gene;

f) 상기 e) 단계의 각 유전자를 대변하는 SNP를 통하여 유전자 단상형(haplotype)을 분류하는 단계; 및f) sorting the gene haplotype through SNPs representing each gene in step e); And

g) 상기 f) 단계의 유전자 단상형(haplotype)을 대변하는 SNP 중 아미노산의 치환을 야기하는 비동의 SNP(non-synonymous SNP) 또는 비동의 SNP(non-synonymous SNP) 정보가 없는 유전자 단상형(haplotype)의 경우, 상동 SNP(homozygous SNP)를 태그-SNP(tag-SNP)로 선발하는 단계;를 포함하는 형질 연관 유전자 탐지의 효율성이 증진된 태그-SNP 선발 방법을 제공한다.g) a single-stranded (single-stranded) gene having no non-synonymous SNP or non-synonymous SNP information causing the amino acid substitution among the SNPs representing the haplotype of the gene of step f) selecting SNPs (tag-SNPs) for homozygous SNPs in the case of haplotypes. The present invention also provides a tag-SNP selection method in which the efficiency of the detection of the transgene-related gene is enhanced.

본 발명의 일 구현 예에 따른 방법에서, 상기 a) 단계의 공개 데이터베이스는 SRA(short read archive) 데이터베이스일 수 있으나, 태그-SNP를 개발하고자 하는 개체의 유전체 또는 전사체 염기서열을 제공하거나 생산하는 데이터베이스 또는 NGS 기기라면 이에 제한되지 않는다.In the method according to an embodiment of the present invention, the public database of step a) may be a short read archive (SRA) database, but it is preferable to provide a genome or a transcript base sequence of an object to which a tag- Database or NGS equipment.

본 발명의 일 구현 예에 따른 방법에서, 상기 b) 단계의 서열 품질은 서열 품질 분석 프로그램을 이용하여 측정될 수 있으며, 예를 들면 FASTX-Toolkit, FastQC, SolexaQA package를 이용하여 측정될 수 있으나, 이에 제한되는 것은 아니다. 상기 서열 품질 분석 프로그램을 이용하여 분석하는 서열 품질의 기준 값의 범위는 프레드 스코어(phred score) 0 내지 40, 염기서열 길이 0bp 내지 100bp, 바람직하게는 프레드 스코어 20 내지 40, 염기서열 길이 25bp 내지 100bp일 수 있으나, 이에 제한되는 것은 아니다. 상기 프레드 스코어는 시퀀싱(sequencing) 결과에서 분석된 각 염기의 신뢰성을 수치로 표현한 것으로, 프레드 스코어 20은 분석된 각 염기서열 정보가 실제 염기서열과 다를 확률이 약 1/100이라는 의미이며, 통상적으로 프레드 스코어 20을 기준 값으로 설정할 수 있다. 상기 프레드 스코어 및 상기 염기서열의 길이는 분석 목적에 따라 범위 내에서 임의로 조절할 수 있다.In the method according to an embodiment of the present invention, the sequence quality of step b) may be measured using a sequence quality analysis program, for example FASTX-Toolkit, FastQC, SolexaQA package, But is not limited thereto. The range of the reference value of the sequence quality analyzed by the above sequence quality analysis program is 0 to 40 for the phred score and 0 to 100 bp for the base sequence length, preferably 20 to 40 for the Fred score, and 25 to 100 bp But is not limited thereto. The Fred Score is a numerical representation of the reliability of each base analyzed in the sequencing results. The Fred Score 20 means that the probability that each base sequence information analyzed differs from the actual base sequence is about 1/100, Fred score 20 can be set as a reference value. The length of the Fred score and the nucleotide sequence can be arbitrarily controlled within a range depending on the purpose of analysis.

본 발명의 일 구현 예에 따른 방법에 있어서, 상기 c) 단계의 정렬 프로그램은 BWA(Burrows-Wheeler Aligner) 또는 TopHat일 수 있으나, 이에 제한되는 것은 아니다. 상기 BWA 정렬 프로그램의 정렬 옵션은 기본 값(default)으로 설정하여 수행할 수 있으나, 이에 제한되지 않으며, 상기 TopHat 정렬 프로그램의 옵션으로 최소 인트론 길이(min-intron-size) 40, 최대 인트론 길이(max-intron-size) 23000 및 불일치(mismatches) 1로 설정할 수 있으나, 이에 제한되지 않으며, 품종의 유전체 특성에 따라 임의로 조절하여 설정할 수 있다. In the method according to an embodiment of the present invention, the sorting program of step c) may be Burrows-Wheeler Aligner (BWA) or TopHat, but is not limited thereto. The sorting option of the BWA sorting program may be set to a default value, but is not limited thereto. As an option of the TopHat sorting program, a minimum intron-size 40, a maximum intron length max -intron-size) 23000 and mismatches 1, but it is not limited thereto and can be arbitrarily set according to the dielectric characteristics of the variety.

본 발명의 일 구현 예에 따른 방법에서, 상기 c) 단계의 SNP 추출에 사용되는 프로그램으로는 SAMtools일 수 있으나, 이에 제한되는 것은 아니다. 일반적으로 SNP 추출 옵션은 기본 값(default)으로 설정하여 수행할 수 있으며, 정확도 높은 SNP 추출을 위해서는 분석 목적에 따라 옵션 값을 임의로 조절할 수 있다.In the method according to an embodiment of the present invention, the program used for SNP extraction in step c) may be SAMtools, but is not limited thereto. In general, the SNP extraction option can be performed by setting the default value (default), and in order to extract the SNP with high accuracy, the option value can be arbitrarily adjusted according to the analysis purpose.

상기 e) 단계의 유전자를 대변하는 SNP 선발은 매트릭스 형태로 정리하여 SNP가 발생한 염색체 위치 정보를 활용하여 SNP를 유전자 별로 분류하여 각 유전자를 대변하는 SNP를 분류하는 것을 특징으로 한다.The SNP selection for representing the gene of the step e) is classified into a matrix form, and the SNPs classified by the genes are classified by utilizing the chromosome position information generated by the SNPs.

상기 f) 단계의 유전자 단상형(haplotype) 분류는 각 유전자를 대변하는 SNP의 집합을 대상 작물의 계통별로 비교하여 각 계통을 구분할 수 있는 것을 특징으로 한다.The gene haplotype classification in step f) is characterized in that each system can be distinguished by comparing a set of SNPs representing each gene on a systematic basis of a target crop.

상기 g) 단계의 태그-SNP(tag-SNP) 선발은 아미노산의 치환을 야기하는 비동의 SNP(non-synonymous SNP)를 우선순위로 정하여 유전자를 대변하는 단상형을 구분할 수 있는 대표 SNP로서 선발하며, 비동의 SNP(non-synonymous SNP) 정보가 없는 유전자 단상형(haplotype)의 경우, 상동 SNP(homozygous SNP)를 차선순위로 선발하여 태그-SNP로 선발하는 것을 특징으로 한다.The tag-SNP selection in the step g) is selected as a representative SNP capable of distinguishing a single-phase type representing a gene by prioritizing a non-synonymous SNP causing amino acid substitution SNP (homozygous SNP) in the case of a haplotype of a gene having no non-synonymous SNP information is selected as a tag-SNP.

또한, 본 발명은 상기 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체를 제공한다.The present invention also provides a recording medium on which a computer-readable program for performing the above method is recorded.

컴퓨터로 판독할 수 있는 기록매체란 컴퓨터에 의해 직접 판독되고 엑세스될 수 있는 임의의 기록매체를 말한다. 이러한 기록매체로서는 플로피 디스크, 하드 디스크, 자기 테이프 등의 자기기록매체, CD-ROM, CD-R, CD, RW, DVD-ROM, DVD-RAM, DVD-RW 등의 광학기록매체, RAM이나 ROM 등의 전기 기록매체 및 이들 범주의 혼합물(예를 들면, MO 등의 자기/광학기록매체)을 들 수 있지만, 이들에 제한되는 것이 아니다.A computer-readable recording medium is any recording medium that can be directly read and accessed by a computer. Examples of the recording medium include magnetic recording media such as a floppy disk, a hard disk and a magnetic tape; optical recording media such as CD-ROM, CD-R, CD, RW, DVD-ROM, DVD- , And mixtures of these categories (for example, magnetic / optical recording media such as MO), but are not limited thereto.

상기 기록매체에 기록 또는 입력시키기 위한 기기 또는 기록매체 중의 정보를 판독하기 위한 기기 또는 장치의 선택은 기록매체의 종류와 엑세스 방법에 근거한다. 또한 여러 가지 데이터 프로세서 프로그램, 소프트웨어, 컴퍼레이터 및 포맷이 본 발명의 방법을 수행하기 위한 프로그램을 해당 매체에 기록시키기 위해 사용될 수 있다. 상기 정보는 예를 들면, 시판하는 소프트웨어로 포맷된 바이너리 파일(binary file), 텍스트 파일 또는 ASCII 파일의 형태로 나타낼 수 있다.
The selection of a device for recording or inputting the recording medium or an apparatus or an apparatus for reading information in the recording medium is based on the type of recording medium and the access method. In addition, various data processor programs, software, comparators and formats may be used to record a program for carrying out the method of the present invention on the medium. The information may be represented, for example, in the form of a binary file, a text file, or an ASCII file formatted with commercially available software.

이하, 본 발명을 실시예에 의해 상세히 설명한다. 단, 하기 실시예는 본 발명을 예시하는 것일 뿐, 본 발명의 내용이 하기 실시예에 한정되는 것은 아니다.
Hereinafter, the present invention will be described in detail with reference to examples. However, the following examples are illustrative of the present invention, and the present invention is not limited to the following examples.

실시예Example 1. 공개 데이터베이스( 1. Open database ( NCBINCBI SRASRA )에서 수집한 토마토 234 계통의 염기서열의 유전자 단상형() Of the 234 base sequences of tomatoes haplotypehaplotype ) 분석을 통한 ) Through analysis tagtag -- SNPSNP 선발 Selection

1. 분석 재료1. Analysis material

가) 토마토 유전체 정보의 확보 및 특징 분석A) Securing and characterizing tomato genome information

현재 재배되고 있는 품종은 대부분 솔라늄 라이코퍼시쿰(Solanum lycopersicum)에 속해 있으며 다양한 야생종 토마토에서 병저항성과 같은 유용한 형질을 도입하기 위해 유전자 및 염색체의 일부를 도입하여 육성되어지고 있다. 토마토 유전체(genome) 시퀀싱 데이터는 다양한 국가의 연구진에 의하여 생산되어 NCBI의 SRA(Sequence Read Archive) 데이터베이스에 약 800여개 SRA 정보를 집적하였으며, 본 연구를 위해 수집한 염기서열 길이(bp)는 7.8Tb에 해당하는 거대한 정보이다(표 1).Most of the cultivars currently on the market belong to Solanum lycopersicum and are being cultivated by introducing some genes and chromosomes to introduce useful traits such as disease resistance in various wildtype tomatoes. Tomato genome sequencing data was produced by researchers from various countries and accumulated about 800 SRA information in NCBI's Sequence Read Archive (SRA) database. The nucleotide sequence length (bp) collected for this study was 7.8Tb (See Table 1).

Figure pat00001
Figure pat00001

나) 토마토 작물을 대변하는 계통의 선정B) Selection of a line representing tomato crops

기 발표된 논문을 참고하여(Tao Lin et al. 2014, Nature Genetics 46(11)) 연구 및 분석에 사용 가능한 형태의 염기서열 데이터로 토마토 234개 계통의 염기서열 데이터를 선정하였다(표 1, 2). 본 분석에 사용한 토마토 SRA 데이터 상세 정보는 하기 표 2 내지 6와 같다.Based on the published literature (Tao Lin et al., 2014, Nature Genetics 46 (11)), nucleotide sequence data of 234 tomato lines were selected using sequence data available for research and analysis (see Tables 1 and 2 ). Details of the tomato SRA data used in this analysis are shown in Tables 2 to 6 below.

수집된 토마토 SRA 중 재배종으로 가장 많이 이용되고 있는 솔라늄 라이코퍼시쿰(Solanum lycopersicum)을 주로 선택하였고, 현 재배종과 가장 유사하다고 알려져 있는 솔라늄 라이코퍼시쿰 세라시포메(Solanum lycopersicum var. cerasiforme)와 육종과정에서 빈번이 활용되는 솔라늄 핌피넬리폴리움(Solanum pimpinellifolium)을 기본으로 하여 일부의 야생종 토마토 계통을 분석에 활용하였다. Solanum lycopersicum , the most commonly used cultivar in the collected tomato SRA, was mainly selected and Solanum lycopersicum var cerasiforme, which is most similar to the present cultivar, Some of the wild tomato varieties were used for the analysis based on Solanum pimpinellifolium , which is frequently used in the breeding process.

Figure pat00002
Figure pat00002

Figure pat00003
Figure pat00003

Figure pat00004
Figure pat00004

Figure pat00005
Figure pat00005

Figure pat00006
Figure pat00006

다) 토마토 표준 유전체 염기서열 데이터의 수집C) Collection of tomato standard genomic sequence data

토마토 표준 유전체(reference genome)는 SGN(ftp://ftp.solgenomics.net/)에서 수집한 Solanum lycopersicum Heinz 1706(ITAG 버전 2.4)을 사용하였다. 표준 유전체는 12개 염색체(chromosome)와 12개 염색체 중 어느 하나의 염색체로 자리 잡지 못한 스캐폴드(scaffold) 염기서열들을 묶은 1개의 기타 그룹으로 구성된 총 13개의 염색체 염기서열, 서열 총 길이 781,666,411 bp로 구성되었다(표 7).Tomato standard genomes were Solanum lycopersicum Heinz 1706 (ITAG version 2.4) collected from SGN (ftp://ftp.solgenomics.net/). The standard genome consists of a total of 13 chromosome sequences, a total of 781,666,411 bp in length, consisting of one other group of scaffold sequences stranded on chromosomes of either 12 chromosomes or 12 chromosomes (Table 7).

Figure pat00007
Figure pat00007

2. 분석 방법2. Analysis method

가) 수집한 염기서열 데이터의 품질 정제(filtering)A) filtering the quality of the collected base sequence data;

수집한 토마토 234개 계통 별 유전체 염기서열 데이터의 품질(quality)을 측정하고, 기준 품질 이상의 염기서열만을 선발(filtering) 하는 가공 작업을 공개된 프로그램인 SolexaQA package(v. 1.13; Cox et al., 2010, BMC Bioinformatics, 11:485)를 이용하여 수행하였다. 품질 측정의 기준 값은 프레드 스코어(phred score) 20으로 적용하여, 염기서열을 이루는 염기(base) 하나의 품질 값이 20보다 낮은 것은 버린 후, 남은 염기서열의 길이가 25 bp 이상인 염기서열만 확보하였다.
The SolexaQA package (v. 1.13; Cox et al., 2002) was used to measure the quality of the genome sequence data of 234 tomatoes collected and to filter only base sequences above the reference quality. 2010, BMC Bioinformatics, 11: 485). The reference value of the quality measurement was applied to a phred score of 20, and when a quality value of a base forming a base sequence is lower than 20, it is only necessary to obtain a base sequence having a remaining base sequence of 25 bp or more Respectively.

나) 전처리 염기서열의 토마토 표준유전체로 정렬(alignment)(B) alignment of the pre-treatment sequences with tomato-

전처리된 토마토 염기서열들은 유전체 형태이므로 염기서열 정렬 프로그램인 BWA(Burrows-Wheeler Aligner; v0.6.1-r104; Li and Dubin, 2009, Bioinformatics, 25:1754-1760)를 이용하여 토마토 표준 유전체 염기서열로의 정렬(alignment)을 수행하였다. 프로그램 옵션으로는 미스매치(mismatch) 최대 2개, 씨드 랭스(seed length) 27 설정 외에 기본값(default)을 적용하였다.
Since the pre-processed tomato sequences are in the form of a genome, the tomato genome sequence is determined using the BWA (Burrows-Wheeler Aligner; v0.6.1-r104; Li and Dubin, 2009, Bioinformatics, 25: 1754-1760) Alignment was performed. Program options include defaults of up to 2 mismatches and seed length 27 settings.

다) 대량의 유전체 변이 정보(genome-wide SNP) 탐색C) Search for large genome-wide SNPs

토마토 각 계통의 표준 유전체로의 염기서열 정렬 결과를 공개된 프로그램인 SAMtools(v0.1.16; Li et al., 2009, Bioinformatics. 25:2078-2079)를 이용하여 유전체 전반적으로 발생한 대량의 단일염기다형성 마커(SNP)를 탐색하였다. SAMtools 프로그램 적용 옵션은 대부분 기본 값(default)으로 적용하였고, 정확도 높은 SNP를 선발하기 위해 정렬 품질(alignment quality) 값을 기본 값인 25보다 높은 30으로 적용하고, 적어도 3개 이상의 원 서열(raw reads; 염기서열을 구성하는 짧은 단편서열)이 정렬된 위치에서 추출된 SNP만을 선발하였다.
The genomic sequence of the genomes of the tomatoes was determined using SAMtools (v0.1.16; Li et al., 2009, Bioinformatics. 25: 2078-2079) Markers (SNPs) were searched. The SAMtools program application option is applied by default and the alignment quality value is applied to the default value of 30 to 30 to select the SNP with high accuracy and at least 3 raw reads. Only a short fragment sequence constituting the nucleotide sequence) was selected.

라) 토마토 계통 간 SNP 매트릭스(SNP matrix) 작성D) Generation of SNP matrix between tomato lines

토마토 234개 계통의 각각의 SNP 발생 정보를 통합하여 매트릭스 형태로 SNP 변이정보를 정리하였다. 세로는 SNP가 발생한 염색체 번호 및 위치 정보, 가로는 표준유전체의 염기서열 및 234개 토마토 계통의 SNP 염기서열 정보로 매트릭스를 작성하였다.
SNP mutation information was summarized in a matrix form by integrating SNP occurrence information of each of 234 tomato lines. The matrix consisted of the chromosome number and position information of the SNP, the nucleotide sequence of the standard genome, and SNP nucleotide sequence information of 234 tomato lines.

마) SNP 매트릭스 기반 유전자 수준으로 SNP 분류E. SNP Classification based on matrix-based gene level

SNP 매트릭스가 제공하는 SNP 위치(SNP position) 정보와 토마토 표준 유전체의 유전자 위치(physical position) 정보를 이용해 유전자 내에 발생한 SNP를 선발하고, 현재 34,727개로 구성된다고 예측된 토마토 각 유전자 별로 SNP를 분류하였다.
SNPs in the genome were selected using information on the SNP position provided by the SNP matrix and the information on the physical position of the tomato standard genome, and SNPs were classified for each tomato gene predicted to be composed of 34,727 genes.

바) 토마토 유전자 기반 단상형(haplotype) 분석F) Analysis of haplotypes based on tomato genes

유전자를 대변하는 SNP로 구성된 유전자 단상형(haplotype)을 정의하고 분석하기 위해 SNP 정제 과정을 거쳤다. SNP 선별 과정에는 SNP가 발생한 위치에서 토마토 계통 간 같은 유형의 SNP 빈도(MAF)가 3% 이상, 원 서열 정렬 개수(read depth)가 5개 이상, 염기서열이 결손된 계통이 30% 이하의 선발 기준을 만족하는 SNP를 선발하였다. 선별된 SNP로 유전자를 구분할 수 있는 단상형(haplotype)을 정리하였다.
SNP purification was performed to define and analyze the gene haplotype composed of SNPs representing the genes. In the SNP screening process, the SNP occurrence rate of the same type among the tomato lines was 3% or more, the read depth was 5 or more, and the sequence lacking the nucleotide sequence was 30% or less SNPs satisfying the criteria were selected. The haplotypes that can distinguish genes from selected SNPs are summarized.

사) 비동의 SNP(non-synonymous SNP) 선발G) Selection of non-synonymous SNP

유전자 내 SNP 발생으로 인하여 염기서열 코돈(codon)이 변경되고, 아미노산이 바뀌는 경우, 유전자의 기능 변경에 영향을 미칠 수 있다. 따라서 유전자 단상형(haplotype)을 대변하는 SNP 중 아미노산의 치환을 야기하는 비동의 SNP(non-synonymous SNP)를 선발하여 형질 연관 유전자 선발의 가능성을 높일 수 있다.Changes in the nucleotide sequence codon due to the occurrence of SNPs in the gene and changes in the amino acid may affect the function of the gene. Thus, non-synonymous SNPs that cause amino acid substitution among SNPs representing haplotypes can be selected to increase the likelihood of screening for transgene-related genes.

선발된 비동의 SNP(non-synonymous SNP)를 유전자 단상형(haplotype)을 대변하며 형질 연관 분자마커로 활용될 수 있는 태그-SNP로 정의하였다.
SNPs (non-synonymous SNPs) were defined as tag-SNPs, which can be used as trait-related molecular markers to represent haplotypes.

아) 토마토 계통 간 연관 비평형(LD) 분석A) Tomato lineage analysis (LD) analysis

토마토 계통 간 SNP matrix를 이용하여 염색체 별로 연관 비평형(linkage disequilibrium; LD) 분석을 실시하였다. LD 분석에는 Broad Institute의 Barrett Jeffrey 팀에서 개발한 Haploview 프로그램을 도입하여 이용하였다.Linkage disequilibrium (LD) analysis was performed on each chromosome using a tomato SNP matrix. For the LD analysis, the Haploview program developed by the Barrett Jeffrey team of Broad Institute was introduced and used.

솔라늄 라이코퍼시쿰 계통 그룹과 솔라늄 핌피넬리폴리움 계통 그룹 간 LD 분포 유형을 염색체 수준에서 조사하였고, LD 분석 시 MAF 20% 이상이며 일정 길이 당 하나의 SNP를 선발하여 사용하였다. 솔라늄 라이코퍼시쿰 계통 그룹은 11, 12번 염색체만 1kb 당 한 개의 SNP를 선발하였고 솔라늄 핌피넬리폴리움 계통 그룹은 5kb 당 한 개의(1번 염색체만 7kb 당 한개)의 SNP를 선발하였다.
The LD distribution patterns between the Solanium lycopersicum and Solanium pimpinelipolium groups were investigated at the chromosome level and one SNP was selected for a certain length and over 20% of MAF in the LD analysis. The Solanium lycopersicum group selected one SNP for only 1 kb of chromosome 11 and 12, while the Solanium pimpinellifolium group selected one SNP per 5 kb (only one chromosome per 7 kb).

3. 분석 결과3. Analysis Results

가) 토마토 작물을 대변하는 계통의 선정A) Selection of a line representing tomato crops

기 논문을 참고하여(Tao Lin et al. 2014) 연구 및 분석에 사용 가능한 형태의 염기서열 데이터로 토마토 234개 계통의 염기서열 데이터를 선정하였다. 본 분석에 사용한 토마토 계통 근연관계 정보는 도 3에서 확인할 수 있다.
(Tao Lin et al., 2014), the sequence data of 234 tomato lines were selected from the sequence data available for research and analysis. Fig. 3 shows the relationship of the tomato root relationship used in this analysis.

나) 수집한 염기서열 데이터의 품질 정제(filtering)B) filtering the quality of the collected nucleotide sequence data;

수집한 토마토 234개 유전체 염기서열의 미가공 서열(Raw data) 및 가공 서열(Trimmed data) 정보를 하기 표 8에 나타내었다. 표 8에는 단편 염기서열 개수(No. of reads), 평균 단편 염기서열의 길이(Avg. length), 총 길이(Total length), 가공 후 염기서열 확보한 길이의 비율(Trimmed/Raw(%))을 나타내었다.Raw data and trimmed data of the 234 genomic DNA sequences of the collected tomatoes are shown in Table 8 below. Table 8 shows the number of reads (No. of reads), the average length of the fragment sequence (total length), the total length, and the ratio of the length of the acquired base sequence (Trimmed / Raw (%)) Respectively.

수집한 토마토 234개 계통 별 유전체 염기서열 데이터의 품질(quality)을 측정하고, 기준 품질 이상의 염기서열만을 선발(filtering)하는 가공 작업을 통해 약 1.2 Tbp 길이의 염기서열을 확보하였다(표 8). The quality of genome sequence data of 234 tomatoes collected was measured and a base sequence of about 1.2 Tbp in length was obtained by filtering only the base sequences above the reference quality (Table 8).

Figure pat00008
Figure pat00008

다) 전처리 염기서열의 토마토 표준 유전체로 정렬(alignment)(C) Alignment of the pretreatment base sequence to the tomato standard dielectric.

토마토 계통별로 정제된 염기서열 데이터들을 토마토 표준 유전체(S. lycopersicum, 2.4v)에 정렬한 결과는 하기 표 9에 나타내었다. 전처리된 단편 서열 중 89.97%가 표준 유전체에 정렬되어 변이정보를 탐색할 수 있었다.The results obtained by sorting the purified sequence data by the tomato line into the tomato standard genome ( S. lycopersicum , 2.4v) are shown in Table 9 below. 89.97% of the preprocessed fragments were aligned to the standard genome and the mutation information could be detected.

Figure pat00009
Figure pat00009

라) 대량의 유전체 변이 정보(genome-wide SNP) 탐색D) Search for large amounts of genome-wide SNP

토마토 234개 계통별로 표준 유전체의 염기서열과 비교하여 유전체 전반적으로 발생한 대량의 SNP를 탐색하였다(표 10 내지 13).A large number of genomic SNPs were searched for in all 234 tomato lines compared to the standard genome sequence (Tables 10 to 13).

Figure pat00010
Figure pat00010

Figure pat00011
Figure pat00011

Figure pat00012
Figure pat00012

Figure pat00013
Figure pat00013

마) 토마토 계통 간 SNP 매트릭스 작성E. Creation of SNP matrix between tomato lines

토마토 234개 계통의 각각의 SNP 발생 정보를 통합하여 매트릭스 형태로 SNP 변이정보를 정리한 결과 통합 29,504,960개의 SNP 정보를 확보하였다.The SNP variation information was collected in a matrix form by integrating the SNP occurrence information of each of 234 tomato lines, resulting in a total of 29,504,960 SNPs.

토마토 234개 계통 중 상위 3 품종 별로 SNP 유형에 따른 경향을 조사한 결과, 솔라늄 라이코퍼시쿰 세라시포메에 속하는 68개 계통은 적게는 10만여 개에서 많게는 250만여개에 이르는 등 개체마다 발생한 SNP 개수의 범위가 넒었다(도 3). 솔라늄 라이코퍼시쿰에 속하는 126개 계통은 표준 유전체와 같은 종에 속하는 계통으로서 1개 계통(SRR1572666)을 제외하고 대부분 1만~10만여 개의 SNP가 탐색되었다(도 4). 솔라늄 핌피넬리폴리움에 속하는 33개 계통은 표준 유전체 대비 3백만여개 이상의 SNP가 추출되었다(도 5).As a result of investigating the trends according to SNP types among the top three cultivars of the 234 tomato lines, 68 strains belonging to Solanum lycopersicum cerasipore showed the number of SNPs per individual, ranging from as few as 100,000 to as many as 2.5 million The range was wide (Figure 3). The 126 strains belonging to Solanum lycopersicum were found to belong to the same species as the standard genome and were found to have 10,000 to 100,000 SNPs, except for one strain (SRR1572666) (Fig. 4). Thirty-three strains belonging to Solanium pimpinelipolium extracted more than 3 million SNPs compared to the standard genome (Fig. 5).

추출한 SNP 정보를 기반으로 토마토 234개의 계통수 분석 결과를 도 6에 나타내었다. 상위 3개 계통 솔라늄 라이코퍼시쿰, 솔라늄 라이코퍼시쿰 세라시포메, 솔라늄 핌피넬리폴리움 그룹을 구분할 수 있으나 구분이 불분명한 개체가 존재하였다.
Based on the extracted SNP information, the results of analysis of the tree number of 234 tomatoes are shown in FIG. The top three lines, Solanium Lycopersicum, Solanum Lycopersicum Cercifion, Solanium Pimpinelipolyum, were distinguishable but there were indistinguishable individuals.

바) SNP 매트릭스 기반 유전자 수준으로 SNP 분류F) SNP classification based on SNP matrix-based gene level

SNP 매트릭스가 제공하는 SNP 위치 정보와 토마토 표준 유전체 내 유전자 위치(physical position) 정보를 이용해 유전자 내에 발생한 SNP를 선발하고, 현재 34,727개로 구성된다고 예측된 토마토 각 유전자 별로 SNP를 분류하였다.Using the SNP location information provided by the SNP matrix and the information on the physical position in the tomato standard genome, SNPs generated in the genes were selected and classified into SNPs of tomato genes predicted to be composed of 34,727 genes.

유전자별 SNP의 빈도를 조사한 결과 2,160개의 유전자는 SNP가 발생하지 않는 것으로 나타났으며 이는 전체 유전자의 약 6.2%이다. 유전자 당 10개 이내의 SNP 발생하는 경우가 가장 높은 비율을 차지했고, 50개 이상의 SNP를 발생하는 유전자도 2,189개 탐색되었다(도 7).
As a result of the frequency of SNPs by gene, 2,160 genes showed no SNP, which is about 6.2% of total genes. Of the 10 SNPs per gene, the highest rate was found, and more than 50 SNPs were found in 2,189 genes (Fig. 7).

사) 토마토 유전자 기반 단상형(haplotype) 분석G) Tomato gene based haplotype analysis

유전자를 대변하는 SNP로 구성된 유전자 단상형(haplotype)을 정의하고 분석하기 위해 SNP를 정제한 결과, 175,287개의 SNP를 확보하였다(표 14). In order to define and analyze the gene haplotype composed of SNPs representing the gene, the SNPs were purified and 175,287 SNPs were obtained (Table 14).

Figure pat00014
Figure pat00014

선별된 SNP를 통해 유전자 단상형(haplotype) 1차 분석 결과를 도 8에 나타내었다. 왼쪽부터 차례대로 유전자명(ID), 해당 유전자에서 단상형(haplotype) 분석에 사용된 계통 수, 특정 단상형(haplotype)의 종류와 해당 단상형(haplotype)을 가지는 계통 수 정보를 단상형(haplotype)의 종류대로 나열하였다.The results of primary analysis of the gene haplotype through selected SNPs are shown in Fig. From the left, the gene name (ID), the number of lines used for haplotype analysis in the gene, the type of the specific haplotype, and the number of lines with the corresponding haplotype are referred to as haplotype ).

조사된 계통들 간에 유전자별 단상형(haplotype) 유형이 가장 빈번하게 발생하는 유형부터 발생빈도가 줄어드는 유형으로 나누어 정리한 결과를 도 9와 도 10에 나타내었다. 솔라늄 라이코퍼시쿰과 솔라늄 라이코퍼시쿰 세라시포메 간에는 큰 차이를 보이지 않았지만 솔라늄 핌피넬리폴리움은 유전체 조성에서 큰 차이를 보였다. 분석 결과를 통해 토마토는 약 2개의 단상형(haplotype)으로 구성됨을 발견하게 되었다.
Fig. 9 and Fig. 10 show the results obtained by dividing the haplotype types among the examined strains into the types in which the haplotype types occur most frequently and those in which the occurrence frequency decreases. Although there was no significant difference between the solanium lycopersicum and the solanium lycopersicum cerasipome, the solanium pimpinelipolium showed a large difference in the dielectric composition. The results showed that tomatoes consisted of about two haplotypes.

아) 비동의 SNP(non-synonymous SNP) 탐색 및 tag-SNP 선발A) Non-synonymous SNP search and tag-SNP selection

유전자 영역 내에 존재하는 SNP 중에서 아미노산의 치환을 야기하여 단백질 구조 변화를 야기하여 유전자(단백질) 기능에 영향을 미칠 가능성이 높은 비동의 SNP(non-synonymous SNP)를 선발한 결과 13,845개의 SNP를 선발하였고, 이를 태그-SNP로 정의할 수 있다. 표 15 및 16은 본 발명에서 확인한 전체 SNP 중 일부를 나타낸다.SNPs with non-synonymous SNPs, which cause amino-acid substitutions in the gene region and cause protein structural changes and have a high possibility of affecting the function of genes (proteins), were selected. As a result, 13,845 SNPs were selected Tag-SNP. Tables 15 and 16 show some of the entire SNPs identified in the present invention.

비동의 SNP(non-synonymous SNP) 정보가 없는 경우, 상동 SNP(homozygous SNP)를 선발하여 13,694개를 태그-SNP로 선발하였다. 이러한 요건을 충족하는 tag-SNP를 총 27,539개 선발하였다(표 15, 16).When there is no non-synonymous SNP information, 13,694 homozygous SNPs were selected as tag-SNPs. A total of 27,539 tag-SNPs meeting these requirements were selected (Table 15, 16).

Figure pat00015
Figure pat00015

Figure pat00016
Figure pat00016

선발된 tag-SNP 정보를 기반으로 토마토 234개의 계통분류 분석 결과를 도 11에 나타내었다. 기본 SNP로 분류한 결과에 비해 상위 3개 계통 그룹(솔라늄 라이코퍼시쿰, 솔라늄 라이코퍼시쿰 세라시포메, 솔라늄 핌피넬리폴리움) 구분능력이 증가함을 알 수 있다.
Based on the selected tag-SNP information, the analysis results of 234 tomato phylogeny classification are shown in FIG. It can be seen that the classification ability of the top three groups (Solanum lycopersicum, Solanum lycopersicum cerasipome, Solanum pimpinelipolium) is increased compared to the results classified as basic SNPs.

자) 응용분석 : 토마토 계통 간 연관 비평형(LD; Linkage Disequilibrium) 분석Application: Analysis of Linkage Disequilibrium (LD) between tomato lines

태그-SNP를 기반으로 솔라늄 라이코퍼시쿰과 솔라늄 핌피넬리폴리움 계통의 LD(linkage dragging) 블록의 분포를 분석한 결과, 두 그룹 간 상당히 다른 패턴을 관찰할 수 있었다(표 17). Analysis of the distribution of LD (linkage dragging) blocks of the Solanum lycopascikum and Solanium pimpinelipolium strains based on the tag-SNP revealed a significantly different pattern between the two groups (Table 17).

Figure pat00017
Figure pat00017

솔라늄 라이코퍼시쿰 그룹은 1번, 2번, 4번, 6번, 10번, 11번, 12번 염색체에서 커다란 LD 현상이 관찰되었다(도 12). 그러나 솔라늄 핌피넬리폴리움 그룹은 염색체 부위별 일부 차이가 보이기는 하나 전체적으로 골고루 퍼져서 존재하고 있으며 LD의 크기도 상대적으로 작게 형성되어 있음을 관찰하였다(도 13).A large LD phenomenon was observed on chromosomes 1, 2, 4, 6, 10, 11 and 12 of the Solanium lycopersicum group (Fig. 12). However, it has been observed that the solanium pimpinelipolium group is spread evenly across the entire chromosome region, and the size of the LD is relatively small (FIG. 13).

염색체의 진정염색질(euchromatic) 혹은 이질염색질(heterochromatic) 영역별 LD의 분포 경향이 나뉘기보다는 염색체별 혹은 특정 부위에 LD가 크게 형성되어 있음을 확인할 수 있었다. 이러한 현상은 육종 과정 중에서 인위적인 선발을 거쳐온 솔라늄 라이코퍼시쿰 그룹의 경우 육종가들의 목적에 따라 유용 형질을 포함하고 있는 유전자군을 지속적으로 선발한 영향으로 추측할 수 있다.It was confirmed that the distribution of LDs in the chromosomal euchromatic or heterochromatic regions was larger than that in the chromosomal or specific regions. This phenomenon has been artificially selected during the breeding process, In the case of the group, it can be inferred that the gene group containing the useful trait is continuously selected depending on the purpose of breeders.

Claims (10)

a) 대상 작물 전체를 대변할 수 있는 대상 작물 계통의 유전체(genome) 염기서열 데이터를 생산하거나 공개 데이터베이스에서 수집하는 단계;
b) 상기 a) 단계의 염기서열의 품질(quality)을 측정하고, 기준 값 이상 품질의 서열로 선별(filtering)하는 단계;
c) 상기 b) 단계의 선별된 각각의 염기서열을 대상 작물의 표준 유전체(reference genome) 염기서열에 대해 정렬(alignment)한 후, 표준 유전체와 대비되는 SNP를 대량으로 추출하는 단계;
d) 상기 c) 단계에서 추출된 SNP가 발생한 위치에 해당하는 대상 작물 계통들의 SNP를 대상으로 매트릭스(matrix) 형태로 만드는 단계;
e) 상기 d) 단계에서 매트릭스 형태로 정리된 대상 작물 계통의 SNP를 유전자 별로 분류하여 각 유전자를 대변하는 SNP를 분류하는 단계;
f) 상기 e) 단계의 각 유전자를 대변하는 SNP를 통하여 유전자 단상형(haplotype)을 분류하는 단계; 및
g) 상기 f) 단계의 유전자 단상형(haplotype)을 대변하는 SNP 중 아미노산의 치환을 야기하는 비동의 SNP(non-synonymous SNP) 또는 비동의 SNP(non-synonymous SNP) 정보가 없는 유전자 단상형(haplotype)의 경우, 상동 SNP(homozygous SNP)를 태그-SNP(tag-SNP)로 선발하는 단계;를 포함하는 형질 연관 유전자 탐지의 효율성이 증진된 태그-SNP 선발 방법.
a) producing genome sequence data of the subject crop line that can represent the entire crop, or collecting it in a public database;
b) measuring the quality of the base sequence in step a), and filtering the base sequence with a sequence having a quality of at least a reference value;
c) aligning each of the selected base sequences of step b) with a reference genome sequence of the target crop, and then extracting a large amount of SNPs compared with the standard genome;
d) making SNPs of target crop lines corresponding to the location of the SNP extracted in step c) as a matrix;
e) classifying the SNPs of the target crop lineage sorted in the form of a matrix in the d) step by gene and classifying the SNPs representing each gene;
f) sorting the gene haplotype through SNPs representing each gene in step e); And
g) a single-stranded (single-stranded) gene without the non-synonymous SNP or non-synonymous SNP information causing the amino acid substitution among the SNPs representing the haplotype of the gene in step f) selecting SNPs (tag-SNPs) for a homozygous SNP in the case of the haplotype of the tag-SNP.
제1항에 있어서, 상기 b) 단계의 서열 품질은 FASTX-Toolkit, FastQC 또는 SolexaQA 패키지로 측정하는 것을 특징으로 하는 형질 연관 유전자 탐지의 효율성이 증진된 태그-SNP 선발 방법.The tag-SNP selection method according to claim 1, wherein the sequence quality of step b) is measured in a FASTX-Toolkit, FastQC or SolexaQA package. 제2항에 있어서, 상기 서열 품질의 기준 값은 프레드 스코어(phred score) 20 이상, 염기서열 길이 25 bp 이상인 것을 특징으로 하는 형질 연관 유전자 탐지의 효율성이 증진된 태그-SNP 선발 방법.3. The tag-SNP selection method according to claim 2, wherein the reference value of the sequence quality is a phred score of 20 or more and a base sequence length of 25 bp or more. 제1항에 있어서, 상기 c) 단계의 정렬은 BWA(Burrows-Wheeler Aligner) 또는 TopHat을 이용하여 수행하는 것을 특징으로 하는 형질 연관 유전자 탐지의 효율성이 증진된 태그-SNP 선발 방법.The method according to claim 1, wherein the alignment in step c) is performed using Burrows-Wheeler Aligner (BWA) or TopHat. 제1항에 있어서, 상기 c) 단계의 SNP 추출은 SAMtools 프로그램을 이용하여 수행하는 것을 특징으로 하는 형질 연관 유전자 탐지의 효율성이 증진된 태그-SNP 선발 방법.The method according to claim 1, wherein the SNP extraction in step c) is performed using a SAMtools program. 제1항에 있어서, 상기 e) 단계의 유전자를 대변하는 SNP 선발은 매트릭스 형태로 정리하여 SNP가 발생한 염색체 위치 정보를 활용하여 SNP를 유전자 별로 분류하여 각 유전자를 대변하는 SNP를 분류하는 것을 특징으로 하는 형질 연관 유전자 탐지의 효율성이 증진된 태그-SNP 선발 방법.[2] The method according to claim 1, wherein the SNP selection for representing the gene of step e) is classified into a matrix form, and the SNPs classified for each gene are classified by using the chromosome position information generated by the SNPs, Tag-SNP selection method with improved efficiency of trait-associated gene detection. 제1항에 있어서, 상기 f) 단계의 유전자 단상형(haplotype) 분류는 각 유전자를 대변하는 SNP의 집합을 대상 작물의 계통별로 비교하여 각 계통을 구분할 수 있는 것을 특징으로 하는 형질 연관 유전자 탐지의 효율성이 증진된 태그-SNP 선발 방법.2. The method according to claim 1, wherein the haplotype classification of step (f) is performed by comparing the SNPs representing each gene with each strain of the target crop to distinguish each strain. Tag-SNP selection method with improved efficiency. 제1항에 있어서, 상기 g) 단계의 태그-SNP(tag-SNP) 선발은 아미노산의 치환을 야기하는 비동의 SNP(non-synonymous SNP)를 우선순위로 정하여 유전자를 대변하는 단상형을 구분할 수 있는 대표 SNP로서 선발하는 것을 특징으로 하는 형질 연관 유전자 탐지의 효율성이 증진된 태그-SNP 선발 방법.2. The method according to claim 1, wherein the tag-SNP selection in step g) is a single-phase type in which a non-synonymous SNP causing amino acid substitution is prioritized to represent a gene Wherein the selected SNPs are selected as representative SNPs. 제1항에 있어서, 상기 g) 단계의 태그-SNP(tag-SNP) 선발은 비동의 SNP(non-synonymous SNP) 정보가 없는 유전자 단상형(haplotype)의 경우, 상동 SNP(homozygous SNP)를 차선순위로 선발하여 태그-SNP로 선발하는 것을 특징으로 하는 형질 연관 유전자 탐지의 효율성이 증진된 태그-SNP 선발 방법.The method according to claim 1, wherein the tag-SNP selection in step g) comprises the step of selecting a homozygous SNP in the case of a haplotype having no non-synonymous SNP information, SNP selection method according to claim 1 or 2, wherein the tag-SNP is selected as a tag-SNP. 제1항 내지 제9항 중 어느 한 항의 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체.

A recording medium on which a computer-readable program for performing the method according to any one of claims 1 to 9 is recorded.

KR1020160141930A 2016-10-28 2016-10-28 Method for selecting and utilizing tag-SNP for discriminating haplotype in gene unit KR101911307B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160141930A KR101911307B1 (en) 2016-10-28 2016-10-28 Method for selecting and utilizing tag-SNP for discriminating haplotype in gene unit

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160141930A KR101911307B1 (en) 2016-10-28 2016-10-28 Method for selecting and utilizing tag-SNP for discriminating haplotype in gene unit

Publications (2)

Publication Number Publication Date
KR20180046592A true KR20180046592A (en) 2018-05-09
KR101911307B1 KR101911307B1 (en) 2018-10-24

Family

ID=62200948

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160141930A KR101911307B1 (en) 2016-10-28 2016-10-28 Method for selecting and utilizing tag-SNP for discriminating haplotype in gene unit

Country Status (1)

Country Link
KR (1) KR101911307B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102318448B1 (en) 2021-08-31 2021-10-28 제주대학교 산학협력단 SNP marker for predicting resistant to lymphocystis disease of Paralichthys olivaceus and use thereof

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101539737B1 (en) * 2014-04-18 2015-07-28 주식회사 씨더스 Methodology for improving efficiency of marker-assisted backcrossing using genome sequence and molecular marker

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102318448B1 (en) 2021-08-31 2021-10-28 제주대학교 산학협력단 SNP marker for predicting resistant to lymphocystis disease of Paralichthys olivaceus and use thereof

Also Published As

Publication number Publication date
KR101911307B1 (en) 2018-10-24

Similar Documents

Publication Publication Date Title
Yang et al. Target SSR-Seq: a novel SSR genotyping technology associate with perfect SSRs in genetic analysis of cucumber varieties
JP5960917B1 (en) Rice whole genome breeding chip and its application
Bernhardsson et al. An ultra-dense haploid genetic map for evaluating the highly fragmented genome assembly of Norway spruce (Picea abies)
CN109196123B (en) SNP molecular marker combination for rice genotyping and application thereof
CN109346130A (en) A method of directly micro- haplotype and its parting are obtained from full-length genome weight sequencing data
US20210269887A1 (en) Method and application for rapid and accurate chromosomal location of economic traits in laver
CN105256044A (en) Wheat molecular barcode based on single nucleotide polymorphism
CN110846429A (en) Corn whole genome InDel chip and application thereof
CN108304694B (en) Method for analyzing gene mutation based on second-generation sequencing data
CN116334248A (en) Liquid chip for local chicken genetic resource protection and variety identification and application thereof
KR101539737B1 (en) Methodology for improving efficiency of marker-assisted backcrossing using genome sequence and molecular marker
CN107862177B (en) Construction method of single nucleotide polymorphism molecular marker set for distinguishing carp populations
CN112233722B (en) Variety identification method, and method and device for constructing prediction model thereof
CN106987652B (en) SNP (Single nucleotide polymorphism) marker for identifying sex of litsea cubeba and screening method of SNP marker
KR101911307B1 (en) Method for selecting and utilizing tag-SNP for discriminating haplotype in gene unit
CN108376210A (en) A kind of breeding parent selection method excavated based on the advantageous haplotypes of full-length genome SNP of genomic information auxiliary breeding means II-
CN108416189B (en) Crop variety heterosis mode identification method based on molecular marker technology
KR20220050296A (en) Novel marker based on Single Nucleotide Polymorphism for identification of line of Brassica rapa ssp. pekinensis
CN112359102A (en) Method for constructing tobacco core germplasm based on genomics and application thereof
Sun et al. The identification and analysis of meristematic mutations within the apple tree that developed the RubyMac sport mutation
CN112102880A (en) Method for identifying variety, and method and device for constructing prediction model thereof
Li-Xin et al. Screening Wheat Cultivars with Genetic Similarity Using Molecular Markers
CN113005215B (en) Haplotype molecular marker related to poplar wood yield and application thereof
CN114203257B (en) Method for obtaining background reversion rate of backcross population based on SNP marker
KR20230074892A (en) Method for tracking genotype in backcross breeding plant by multiple cross using SNP haplotype and chromosome graphical representation

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant