KR20230074892A - Snp 단상형과 염색체 도식화를 이용한 복교배에 의한 여교배 육종 식물체의 유전형 추적 방법 - Google Patents

Snp 단상형과 염색체 도식화를 이용한 복교배에 의한 여교배 육종 식물체의 유전형 추적 방법 Download PDF

Info

Publication number
KR20230074892A
KR20230074892A KR1020210160944A KR20210160944A KR20230074892A KR 20230074892 A KR20230074892 A KR 20230074892A KR 1020210160944 A KR1020210160944 A KR 1020210160944A KR 20210160944 A KR20210160944 A KR 20210160944A KR 20230074892 A KR20230074892 A KR 20230074892A
Authority
KR
South Korea
Prior art keywords
genotype
snp
snps
breeding
parents
Prior art date
Application number
KR1020210160944A
Other languages
English (en)
Inventor
조성환
Original Assignee
주식회사 씨더스 농업회사법인
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 씨더스 농업회사법인 filed Critical 주식회사 씨더스 농업회사법인
Priority to KR1020210160944A priority Critical patent/KR20230074892A/ko
Publication of KR20230074892A publication Critical patent/KR20230074892A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Abstract

본 발명은 SNP 단상형과 염색체 도식화를 이용한 다수의 부모친을 이용한 여교배 육종시 회복률이 높은 식물체의 염색체 추적 방법에 관한 것으로, 본 발명의 방법은 부모의 염색체가 교차(chromosome recombination)되어 만들어지는 다양한 조합의 자식 개체들 중에서 목표하는 형질을 가진 개체를 보다 쉽게 선발할 수 있는 정보를 제공할 수 있다.

Description

SNP 단상형과 염색체 도식화를 이용한 복교배에 의한 여교배 육종 식물체의 유전형 추적 방법{Method for tracking genotype in backcross breeding plant by multiple cross using SNP haplotype and chromosome graphical representation}
본 발명은 SNP 단상형과 염색체 도식화를 이용하여 다수의 부모친을 사용하는 여교배 육종시 식물체의 유전형 추적 방법에 관한 것이다.
분자마커를 활용하는 분자육종은 육종프로그램 가운데 중요성이 지속적으로 증가하고 있다. 단일유전자 혹은 주동유전자에 의해 형질이 결정되는 경우 형질에 연관된 분자마커를 이용하여 대상 개체를 선발하는 기술(Marker-assisted Selection, MAS) 뿐만 아니라 여러 유전자에 의해 결정되는 양적형질을 선발하는 분자마커 개발도 최근 유전체 선발(genomic selection) 등으로 빠르게 발전하고 있다. 특히, 여교배 개체의 선발을 위해서 다수의 마커를 활용하여 회복친의 회복률을 마커 기반으로 탐색하고 선발하는 기술(MAB) 또한 분자육종에 널리 활용되고 있다. 이와 같은 분자육종 프로그램의 활성화는 차세대염기서열 해독 기술(Next-Generation DNA Sequencing technologies)의 빠른 발달로 게놈 전반에 존재하는 SNP (single nucleotide polymorphism)를 비교적 신속하고 저렴하게 확보하게 되었기 때문에 더욱 촉진되고 있다. 특히 GBS (Genotyping-by-sequencing)는 유전체 전체를 대상으로 하는 NGS를 활용하면서 제한효소로 절단된 주변 서열만 부분적으로 해독함으로써 데이터 생산량을 적게하여 유전체의 복잡도는 낮추면서도 SNP 당 read depth를 확보하고 유전체 전체를 확인할 수 있는 유전적 변이를 집단수준에서 탐색할 수 있는 기술이다. GBS는 수집된 유전자원이나 교배에 의해 작성된 교배집단에서 빠르게 분자마커를 개발하거나 유전자원 집단의 구조적 특징, 유전지도 작성 등의 연구를 위해 폭넓게 시도되고 있다. GBS 데이터는 multiplexing을 통해 수십 개 혹은 수백 개의 시료를 동시에 분석하면서 수천 개 이상의 SNP를 확보할 수 있는 장점을 가지고 있다. 그러나 염기서열이 확보되지 않는 결측 좌(missing locus)가 다수 발생하거나 시퀀싱 양이 낮은 커버리지(coverage)를 갖는 좌가 발생하여 유전형 분석(genotyping)의 정확도를 낮추는 원인을 제공할 수 있다(Crossa et al. 2013, G3-Genes Genom Genet 3: 1903-1926).
결측 좌를 해결하기 위해 대체법(imputation) 기술이 다양하게 개발되어 왔다. 결측 값 대체를 통한 유전형분석 결과의 품질적인 개선은 유전체 선발과 게놈 전체 연관 연구의 결과를 개선하는데 효율적으로 적용되었다. 결측 좌를 예측하기 위한 방법으로는 크게 포괄적인 대체법(generic imputation method)과 유전형-특이적 방법(genotype-specific method)을 사용하였다. 포괄적 대체법을 적용한 kNNi나 LD-kNNi 프로그램은 k-nearest neighbors imputation 혹은 linkage disequilibrium k-nearest neighbors imputation 알고리즘을 적용하여 개발하였다(Troyanskaya et al. 2001, Bioinformatics 17: 520-525; Money et al. 2015, G3-Genes Genom Genet 5: 2383-2390). 유전형-특이적 방법을 적용하기 위해서는 단계별 단상형 정보(phased haplotype information)가 필요하며 BEAGLE (Pook et al. 2020, G3-Genes Genom Genet 10: 177), fastPHASE (Scheet & Stephens. 2006, Am J Hum Genet 78: 629-644)와 같은 프로그램이 개발되었다. 유전형-특이적 방법의 경우 연구가 많이 진행된 모델 생물을 중심으로 개발되었고, 다배체 생물이나 비모델 생물의 경우는 포괄적 대체법을 적용하였다.
결측 좌뿐만 아니라 유전형분석 오류(genotyping error)는 회복친의 회복률을 계산할 경우 문제를 야기할 수 있으나 현재까지는 저품질의 서열을 필터링하거나 서열 생산량을 증가시키는 방법 이외에 특별히 개발된 사례는 매우 제한적이다. 이러한 문제점을 해결하기 위하여 본 발명에서는 재조합 패턴 및 빈도를 기반으로 k-NN 알고리즘을 적용하여 유전형 오류를 개선 및 최소화하고 염색체 도식화(genotype graphical representation) 기술을 통해 결과를 검증하였다. 재조합 패턴과 빈도를 토마토 RILs (recombinant inbred lines)에서 조사한 결과에 의하면, 60개의 RILs 계통에서 1,445 재조합 자리(recombination site)를 발견했다고 보고하였다(de Haas et al. 2017, DNA Res 24: 549-558). 이는 계통당 24번의 재조합 자리가 발견된 것이며 염색체 수준에서는 2번 발견되는 것을 의미한다. 교배의 횟수에 따라 재조합 발생 빈도는 바뀔 수 있을 것으로 예측해볼 때, RILs에 비해 교배가 줄어드는 F2 집단이나 BC1 집단 등에서는 보다 적은 빈도의 재조합이 발생될 수 있어 GBS 등의 유전형분석 결과 해석과 유전형 오류 교정에 참조할 수 있다. 염색체 도식화 기술은 마커 기반의 개체 선발을 돕기 위해 개발된 가시화 도구이다. 즉 게놈 전체의 구성을 그래픽적으로 표현함으로써 새로 육성되는 계통의 유전적 구성을 직관적으로 판단하게 하는 방법론이다(van Berloo R 2008, J Hered 99: 232-236).
본 발명은 다량의 마커를 활용하는 경우 빈번히 발생되는 데이터 결측과 유전형 오류를 효과적으로 개선함으로써 복교잡(double cross)을 실시하는 여교잡 육종에서 개체 선발 효율을 증진하고자 하였다.
한편, 한국공개특허 제2013-0134269호에는 NGS를 이용해 개발된 SNP 유전형분석을 교배 집단의 생물적인 특성을 이용하여 추가적인 실험 과정을 거치지 않고 인실리코(in silico) 상에서 정확성을 검증할 수 있는 기술에 관한 '차세대시퀀싱 기반 에스엔피 유전형분석을 이용한 초고밀도 유전자지도 작성기법'이 개시되어 있고, 한국등록특허 제1539737호에는 '유전체 정보와 분자마커를 이용한 여교잡 선발의 효율성 증진 기술'이 개시되어 있으나, 본 발명의 'SNP 단상형과 염색체 도식화를 이용한 복교배에 의한 여교배 육종 식물체의 유전형 추적 방법'에 대해서는 기재된 바가 없다.
교배 육종에 있어서 부모의 염색체가 교차(chromosome recombination)되어 만들어지는 다양한 조합의 자식 개체들 중에서 목표하는 형질을 가진 개체를 선발하는 과정은 매우 중요하다. 분자마커를 활용하는 분자 육종에서 단교배 즉, 2개의 계통을 이용하여 교배하는 경우도 각 부모를 특징짓는 SNP의 조합을 찾아내는 것이 어려운 기술이지만, 복교배(2개 이상의 부모를 이용)인 경우 복잡도가 더욱 상승하여 SNP 조합을 찾아내는 것이 매우 어렵고 개념적인 단계에만 머물러 있는 실정이다. 여러 이유 중 하나는 일반적으로 사용하는 SNP는 bi-allele 즉 2가지 유형(예컨데, 염기서열 A/G)만 사용하고 있어 하나의 SNP로는 2개 이상을 구분할 수 없기 때문이다.
본 발명은 상기와 같은 요구에 의해 도출된 것으로서, 본 발명자들은 다량의 마커를 활용하는 경우 빈번히 발생되는 데이터 결측과 유전형분석 오류를 효과적으로 개선함으로써 복교잡을 실시하는 여교잡 육종에서 개체 선발 효율을 증진시키고자, 염색체를 따라 여러개의 SNP를 단상형(haplotype)으로 인식해서 구분할 수 있도록 하였고 이를 기반으로 유전형을 판별하고 매뉴얼 큐레이션을 통해 오류를 교정할 수 있도록 하였으며, 염색체 수준에서 그래픽적으로 도식화하여 부모 유전형의 조합이 어떻게 일어나는지를 쉽게 확인할 수 있도록 확인함으로써, 본 발명을 완성하였다.
상기 과제를 해결하기 위해, 본 발명은 (a) 교배 육종에 사용된 부모친 및 자손 개체들의 유전체 염기서열을 대상 작물의 표준 유전체(reference genome) 염기서열에 정렬(alignment)한 후, 표준 유전체와 대비되는 SNP (single nucleotide polymorphsim)를 대량으로 탐색하는 단계; (b) 상기 (a) 단계에서 탐색된 SNP를 대상으로, 교배 육종에 사용된 부모친 및 자손 개체들의 SNP 매트릭스(matrix)를 작성하는 단계; (c) 상기 (b) 단계에서 작성된 SNP 매트릭스를 대상으로 SNP가 발생한 염색체 위치 정보에 기반하여 인접한 10~100개의 SNP를 하나의 단상형(haplotype) 단위로 분류하는 단계; (d) 상기 (c) 단계에서 분류된 단상형 단위의 유전형을 자손 개체들과 교배 부모친 간에 비교하여 해당 유전형의 유래 부모친을 결정하는 단계; 및 (e) 상기 (d) 단계에서 결정된 단상형 단위의 유전형 유래 부모친을 염색체의 순서에 따라 그래픽 도식화하는 단계;를 포함하는, 교배 육종의 자손 개체들의 유전체에서 부모친 유전형 조합을 추적하는 방법을 제공한다.
또한, 본 발명은 상기 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체를 제공한다.
본 발명의 방법은 부모의 염색체가 교차(chromosome recombination)되어 만들어지는 다양한 조합의 자식 개체들 중에서 목표하는 형질을 가진 개체를 보다 쉽게 선발할 수 있는 정보를 제공할 수 있다. 특히 현장 육종 프로그램에서는 다수의 부모친을 사용하는 경우가 빈번히 발생하게 되는데 본 발명을 통해 다수의 부모를 교배친으로 사용한 경우 및/또는 부모친들 간 동일한 유전적 구성을 가진 경우 염색체를 도식화하는 방안을 개발함으로써 현장의 육종 프로그램에 쉽게 적용할 수 있을 것으로 기대된다.
도 1은 복교배와 여교배 과정을 통해 작성된 BC1F1, BC2F2 집단과 이들 집단 작성에 활용된 부모친 4계통(TGA2, SV17, MS15, HA1)을 보여준다. DF1은 모친으로 사용되었으며, SV17 및 HA1은 부친으로 사용되었다.
도 2는 20개의 SNP를 haplotype block으로 묶어서 4개의 부모간 유전형을 분석한 결과로, (A)는 매뉴얼 큐레이션 및 확대된 그래픽 유전자형 결과의 그래픽 스냅샷으로 X축은 각 계통을 나타내며 Y축은 염색체 상의 마커 위치이고, (B)는 SV17과 여교배한 BC2F1 집단의 2계통, (C)는 HA1과 여교배한 BC2F1 집단의 2계통의 (A)에서 검은색 사각형으로 표시한 영역을 확대한 그래픽 결과이다. ①: 시료명, ②: 시료의 염기서열, ③: TGA2의 염기서열, ④: SV17의 염기서열, ⑤: MS15의 염기서열, ⑥: HA1의 염기서열, ⑦: 결정된 유전자형을 그래픽으로 표현, ⑧: SNP 위치(Mbp)를 나타낸다.
도 3은 BC2F1 집단 94 개체의 염색체를 그래픽으로 나타낸 것이다. 파란색: SV17 동형접합 유전자형, 붉은색: TGA201 동형접합 유전자형, 노란색: MS15 동형접합 유전자형, 검정색: HA1 동형접합 유전자형, 녹색: 이형접합 유전자형.
도 4는 BC2F1 집단 3 개체의 염색체를 그래픽으로 나타낸 것으로, 각각의 색이 의미하는 바는 도 3과 같다.
도 5는 BC1F1 집단(A, B), BC2F1 집단(C, D)의 회복률을 나타내는 것으로, 높은 회복률을 가진 계통이 선발 후보가 될 수 있다.
본 발명의 목적을 달성하기 위하여, 본 발명은 SNP 단상형과 염색체 도식화를 이용한 교배 육종의 자손 개체들의 유전체에서 부모친 유전형 조합을 추적하는 방법을 제공한다.
본 발명의 상기 교배 육종의 자손 개체들의 유전체에서 부모친 유전형 조합을 추적하는 방법은 구체적으로,
(a) 교배 육종에 사용된 부모친 및 자손 개체들의 유전체 염기서열을 대상 작물의 표준 유전체(reference genome) 염기서열에 정렬(alignment)한 후, 표준 유전체와 대비되는 SNP (single nucleotide polymorphsim)를 대량으로 탐색하는 단계;
(b) 상기 (a) 단계에서 탐색된 SNP를 대상으로, 교배 육종에 사용된 부모친 및 자손 개체들의 SNP 매트릭스(matrix)를 작성하는 단계;
(c) 상기 (b) 단계에서 작성된 SNP 매트릭스를 대상으로 SNP가 발생한 염색체 위치 정보에 기반하여 인접한 10~100개의 SNP를 하나의 단상형(haplotype) 단위로 분류하는 단계;
(d) 상기 (c) 단계에서 분류된 단상형 단위의 유전형을 자손 개체들과 교배 부모친 간에 비교하여 해당 유전형의 유래 부모친을 결정하는 단계; 및
(e) 상기 (d) 단계에서 결정된 단상형 단위의 유전형 유래 부모친을 염색체의 순서에 따라 그래픽 도식화하는 단계;를 포함할 수 있으나, 이에 제한되지 않는다.
본 발명에 따른 방법에 있어서, 상기 교배 육종은 이로 제한되는 것은 아니나, 바람직하게는 복교배 육종일 수 있다. 복교배란 두 개의 단교배(single cross, 유전적으로 다른 두 품종을 교배하는 것) F1끼리 교배하는 것을 의미한다.
본 발명의 일 구현 예에 따른 방법에 있어서, 상기 (a) 단계의 교배 육종에 사용된 부모친 및 자손 개체의 염기서열은 NGS (Next Generation Sequencing)를 통해 생산된 유전체(genome) 염기서열 데이터일 수 있으나, 이에 제한되지 않는다.
또한, 상기 (a) 단계의 교배 육종에 사용된 부모친 및 자손 개체의 염기서열은 품질(quality)을 측정하고, 기준 값 이상 품질의 서열로 선별(filtering)된 염기서열인 것을 특징으로 한다. 상기 서열 품질은 서열 품질 분석 프로그램을 이용하여 측정될 수 있으며, 예를 들면 SolexaQA package, FASTX-Toolkit, FastQC를 이용하여 측정될 수 있으나, 이에 제한되는 것은 아니다. 상기 서열 품질 분석 프로그램을 이용하여 분석하는 서열 품질의 기준 값의 범위는 프레드 스코어(phred score) 0 내지 40, 염기서열 길이 0bp 내지 100bp, 바람직하게는 프레드 스코어 20 내지 40, 염기서열 길이 25bp 내지 100bp일 수 있으나, 이에 제한되는 것은 아니다. 상기 프레드 스코어는 시퀀싱(sequencing) 결과에서 분석된 각 염기의 신뢰성을 수치로 표현한 것으로, 프레드 스코어 20은 분석된 각 염기서열 정보가 실제 염기서열과 다를 확률이 약 1/100이라는 의미이며, 통상적으로 프레드 스코어 20을 기준 값으로 설정할 수 있다. 상기 프레드 스코어 및 상기 염기서열의 길이는 분석 목적에 따라 범위 내에서 임의로 조절할 수 있다.
또한, 본 발명의 일 구현 예에 따른 방법에 있어서, 상기 (a) 단계의 정렬은 BWA(Burrows-Wheeler Aligner) 또는 HISAT2와 같은 정렬 프로그램을 통해 수행되는 것일 수 있으나, 이에 제한되지 않는다. 상기 BWA 정렬 프로그램의 정렬 옵션은 기본 값(default)으로 설정하여 수행할 수 있으나, 이에 제한되지 않으며, 대상 식물체의 유전체 특성에 따라 임의로 조절하여 설정할 수 있다.
또한, 상기 (a) 단계의 SNP 탐색 조건은 SNP에 대한 최소 매핑 품질(minimum mapping quality for SNPs, Q) 25~30, 공백에 대한 최소 매핑 품질(minimum mapping quality for gaps, q) 15, 최소 리드 깊이(minimum read depth, d) 3~10, 최대 리드 깊이(D) 100~202, 주변 SNP 필터링에 대한 최소 InDel 점수(min indel score for nearby SNP filtering, G) 30, 및 필터링할 공백 주위의 INT (integer) bp 내 SNP (SNP within INT bp around a gap to be filtered, w) 10~30일 수 있고, 바람직하게는 SNP에 대한 최소 매핑 품질(Q) 30, 공백에 대한 최소 매핑 품질(q) 15, 최소 리드 깊이(d) 3, 최대 리드 깊이(D) 202, 주변 SNP 필터링에 대한 최소 InDel 점수(G) 30, 및 필터링할 공백 주위의 INT bp 내 SNP (w) 15일 수 있으나, 이에 제한되지 않는다.
본 발명에 따른 방법에 있어서, 상기 (b) 단계의 SNP 매트릭스는 (a) 단계에서 탐색된 SNP 중에서 SNP 좌가 bi-allelic 유형이며, 최소 리드 깊이 3개 이상, MAF (minor allele frequency) 5% 이상, 및 SNP 좌에서 결측 데이터(missing data)가 30% 이내인 조건을 만족하는 SNP를 선발한 후 이들의 합집합으로 SNP 전체 리스트를 구성하고, 샘플별 결실된 데이터가 있는 부위를 초기 리드(read) 정보를 이용해 채우는 과정을 통해 작성되는 것일 수 있으나, 이에 제한되지 않는다.
또한, 본 발명의 교배 육종의 자손 개체들의 유전체에서 부모친 유전형 조합을 추적하는 방법은 상기 (b) 단계에서 작성된 SNP 매트릭스를 대상으로 SNP가 발생한 염색체 위치 정보에 기반하여 인접한 10~100개의 SNP를 하나의 단상형(haplotype) 단위로 분류하는 단계를 포함한다.
본 명세서에서 용어 "단상형(haplotype)"은 하나의 염색체상에 통계적으로 연관된 SNP (single nucleotide polymorphism) 집합을 의미하는 것으로, 본 발명에서는 같은 염색체 내에서 함께 유전되는 경향이 있는 인접한 SNP들의 집합을 말한다.
본 발명의 일 구현 예에 있어서, SNP 단상형은 SNP가 발생한 염색체 위치 정보에 기반하여 인접한 10~100개의 SNPs, 보다 바람직하게는 10~50개의 SNPs, 보다 더 바람직하게는 15~25개의 SNPs, 가장 바람직하게는 20~21개의 SNPs를 하나의 단상형 단위로 분류할 수 있으나, 이에 제한되지 않으며, 대상 식물체의 특성에 따라 조절하여 설정할 수 있다.
SNP 분자마커를 활용하는 분자 육종에서 단교배 즉, 2개의 계통을 이용하여 교배하는 경우도 각 부모를 특징짓는 SNP의 조합을 찾아내는 것이 어려운 기술이지만, 일반적으로 사용하는 SNP가 bi-allele 즉 2가지 유형(예컨데, 염기서열 A/G)만 사용하고 있어 하나의 SNP로는 2개 이상을 구분할 수 없기 때문에, 복교배(2개 이상의 부모를 이용)인 경우 각 부모를 특징짓는 SNP의 조합을 찾아내는 것이 매우 어렵다. 본 발명에서는 10~100개의 SNPs를 포함하는 단상형을 하나의 단위로 하여 SNP 단상형간의 비교를 통해 유전형 결정을 보다 용이하게 한 것이 특징이다.
또한, 본 발명의 일 구현 예에 따른 방법에 있어서, 상기 (d) 단계의 유래 부모친의 결정은 단상형 단위의 유전형 추정법 및 k-최근접 이웃(k-Nearest Neighbor) 알고리즘을 이용한 유전형 오류 교정법을 통해 수행되는 것일 수 있으나, 이에 제한되지 않는다. 또한, 상기 유전형 결정에 있어서, 유전형이 동일한 부모친이 2개 이상일 경우 회복친(recurrent parent)에 가중치를 주어 유전형을 결정하는 것을 특징으로 한다.
"k-최근접 이웃(k-Nearest Neighbor, k-NN) 알고리즘"이란 분류나 회귀에 사용되는 비모수 방식이다. k-NN에서 k는 가장 가까운 이웃의 수입니다. 즉, 가장 가까운 k개의 이웃을 찾아 데이터의 클래스를 예측하는 방법이다.
또한, 본 발명은 상기 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체를 제공한다.
컴퓨터로 판독할 수 있는 기록매체란 컴퓨터에 의해 직접 판독되고 엑세스될 수 있는 임의의 기록매체를 말한다. 이러한 기록매체로서는 플로피 디스크, 하드 디스크, 자기 테이프 등의 자기기록매체, CD-ROM, CD-R, CD, RW, DVD-ROM, DVD-RAM, DVD-RW 등의 광학기록매체, RAM이나 ROM 등의 전기 기록매체 및 이들 범주의 혼합물(예를 들면, MO 등의 자기/광학기록매체)을 들 수 있지만, 이들에 제한되는 것이 아니다.
상기 기록매체에 기록 또는 입력시키기 위한 기기 또는 기록매체 중의 정보를 판독하기 위한 기기 또는 장치의 선택은 기록매체의 종류와 엑세스 방법에 근거한다. 또한 여러 가지 데이터 프로세서 프로그램, 소프트웨어, 컴퍼레이터 및 포맷이 본 발명의 방법을 수행하기 위한 프로그램을 해당 매체에 기록시키기 위해 사용될 수 있다. 상기 정보는 예를 들면, 시판하는 소프트웨어로 포맷된 바이너리 파일(binary file), 텍스트 파일 또는 ASCII 파일의 형태로 나타낼 수 있다.
이하, 본 발명을 실시예에 의해 상세히 설명한다. 단, 하기 실시예는 본 발명을 예시하는 것일 뿐, 본 발명의 내용이 하기 실시예에 한정되는 것은 아니다.
재료 및 방법
1. 공시재료
연구 소재로는 도 1의 복교배와 여교배 과정을 통해 육종회사(현대종묘, 여주)로부터 작성된 BC1F1, BC2F2 집단과 이들 집단 작성에 활용된 부모친본 4계통(TGA2, SV17, MS15, HA1)을 사용하였다. 부모친 4계통은 모두 무한생육형의 분홍색 대과종 토마토로써 HA1, TGA2 그리고 MS15는 일반적인 동양계 분홍색 대과종 토마토인 반면, SV17은 동양계 분홍토마토와 유럽계 레드토마토의 교잡으로 육성된 고경도 계통이다. HA1과 SV17은 복합내병계이며, TGA2는 단위결과성, MS15는 웅성불임성 계통이다. 확보된 부모친 계통 및 BC1F1, BC2F1 집단에 대해 각각 230개, 96개 개체로부터 어린잎을 채취하고 핵 DNA를 추출하여 GBS 분석에 사용하였다. BC1F1 두 집단(SV17-BC1F1, HA1-BC1F1)은 복교배 후대(DF1) 중 한 개체를 선발하여 두 회복친(SV17, HA1)에 교배하여 얻었으며, BC2F1 두 집단(SV17-BC2F1, HA1-BC2F1)은 각 BC1F1 집단에서 선발된 한 개체씩을 각 회복친에 다시 여교배하여 얻었다. BC2F2 두 집단(SV17-BC2F2, HA1-BC2F2 는 각 BC2F1 집단에서 선발된 후대 개체들을 자가수정하여 얻었다.
2. GBS 라이브러리 작성 및 시퀀싱
GBS 라이브러리(library)는 Elshire 등 (2011, Plos One 6: e19379)에서 수정된 프로토콜을 사용하여 제한 효소 ApeKI (GCWGC)를 사용하여 제작하였다. DNA 샘플(100 ng/㎕)을 각각 다른 바코드 어댑터를 갖는 96개의 DNA 샘플을 하나의 실험 세트로 pooling하였다. PCR 과정을 통하여 200-500 bp 크기의 단편이 풍부하게 되도록 시퀀싱용 GBS 라이브러리를 제작하였다. NGS 시퀀싱은 HiSeq 2500 PE101 (Illumina, 미국)을 이용하여 라이브러리 당 1 레인 (50 Gbp 이상)을 생산하여, 총 2 라이브러리, 2 레인 (총 100 Gbp 이상)을 생산하였다.
3. SNP 탐색 및 매트릭스 작성
생산된 염기서열은 바코드 서열(barcode sequence)을 이용하여 역다중화(demultiplexing)를 수행하고, 어댑터(adapter) 서열 제거 및 품질 트리밍(quality trimming)을 수행하였다. 어댑터 트리밍은 cutadapt (version 1.8.3) 프로그램을 사용하였고, 서열 품질 트리밍은 SolexaQA (version 1.13) 패키지의 DynamicTrim과 LengthSort 프로그램을 사용하였다(Cox et al. 2010, BMC Bioinformatics 11: 485). DynamicTrim의 phred score ≥ 20, LengthSort의 short read length ≥ 25 bp 옵션을 적용하였다. 전처리 과정을 통과한 cleaned reads를 BWA (0.6.1-r104) 프로그램을 사용하여 토마토 표준유전체(Solanum lycopersicum SL3.0)에 매핑을 수행하였다. 매핑 조건은 seed length (-l) = 30, maximum differences in the seed (-k) = 1, number of threads (-t) = 16, mismatch penalty (-M) = 6, gap open penalty (-O) = 15, gap extension penalty (-E) = 8을 사용하였고 나머지 옵션은 기본값을 사용하였다. SNP를 탐색하는 조건은 minimum mapping quality for SNPs (-Q) = 30, minimum mapping quality for gaps (-q) = 15, minimum read depth (-d) = 3, maximum read depth (-D) = 202, min indel score for nearby SNP filtering (-G) = 30, SNP within INT bp around a gap to be filtered (-w) = 15, window size for filtering을 만족하도록 하였다. 분석대상 간의 SNP 비교분석을 수행하기 위해 샘플간 통합 SNP 매트릭스(matrix)를 작성하였다. 매트릭스 내 SNP 필터 조건은 SNP 좌가 biallelic 유형이며, 최소 read depth 3개 이상을 만족하고, minor allele frequency (MAF)가 5% 이상을 만족하고, SNP 좌에서 결측 데이터(missing data)가 30% 이내를 만족하는 SNP만을 선발하였다. 각 SNP 좌는 aligned read의 구성에 기반하여 3가지 SNP 유형으로 구분하였다. Read depth ≥ 90% 이상 동일한 경우 homozygous-type SNP, 40% ≤ read depth ≤ 60%인 경우 heterozygous-type SNP, 두 유형으로 구분되지 않는 나머지 경우는 기타 SNP로 구분하였다.
4. 단상형(haplotype) 기반의 유전자형 분석
BC1F1, BC2F1 집단의 각 샘플의 유전자형은 부모의 단상형을 이용하여 수행하였다. 부모 샘플의 유전자형은 'TGA2=A, SV17=B, MS15=C, HA1=D'로 정의하고, BC2F1 집단이 헤테로형(heterozygous type)일 경우 'H'로 정의하였다. 각 샘플 마다 염색체 별 SNP를 위치 순으로 정렬하고, 단상형 분석을 위한 window size는 각 SNP 좌 마다 앞뒤로 10개씩 총 21개의 SNP를 하나의 단위로 지정하여 부모 4개 샘플(TGA2, SV17, MS15, HA1)의 염기서열과 비교하여 해당 SNP 좌를 가장 가까운 부모의 유전자형(ABCD) 또는 'H' 유전자형으로 결정하였다. 만약 가장 가까운 부모의 유전자형으로 결정하지 못하는 경우, 앞뒤로 10개씩의 SNP를 계속 확장해 가면서 해당 SNP 좌를 가장 가까운 부모의 유전자형(A, B, C, D) 또는 'H' 유전자형으로 결정하였다.
5. 대체법(Imputation)과 유전형 오류 교정(genotype error correction)
대체법은 근접이웃(k-nearest neighbors, k-NN) 알고리즘을 적용하였다(Laaksonen & Oja 1996 DOI: 10.1109/ICNN.1996.549118; Money et al. G3- Genes Genom Genet (2015) 5:2383-2390). 결측 데이터(missing data)를 채우기 위해서 두 단계를 적용하였는데, 첫째 가장 근접이웃을 샘플들 가운데서 찾고 두번째로 해당부위의 유전자형을 추정하는 단계로 진행하였다. 유전자형 오류 교정을 위해서도 k-NN 알고리즘을 적용하였으나 근접이웃을 염색체 위치 상에서의 거리로 측정하여 적용하였다. 가장 근접한 샘플의 거리를 측정하는 수식은 아래와 같다.
Figure pat00001
거리측정 dn (s1, s2)은 시료 s1과 s2와의 거리이며, P는 모든 SNP 세트를 뜻하고 g (s, p)는 s 샘플의 p 위치를 의미한다. N은 SNP 수를 의미한다.
대체할 유전자형 gi (si, sj)을 수식으로 표현하면 아래와 같다.
Figure pat00002
N은 si 샘플과 가장 가까운 k 샘플의 세트를 의미한다. 이때 pj의 SNP는 알고 있고 있다. I[g (s, pj) = a]는 지시 함수를 의미한다. 즉 g (s, pj) = a이면 1을 취하고 그렇지 않으면 0을 취한다.
실시예 1. GBS 분석
여교배 집단의 회복친 염색체 회복률을 조사하기 위하여 BC1F1 230개체와 BC2F1 96개체에 대해 GBS 분석을 실시하였다. BC1F1의 경우 최대한 많은 개체를 검토하여 회복률이 높은 개체를 선발하는 것이 필요하다고 판단하여 다중 지표(multiplex index)를 증가하여 첫번째 pooling은 총 112개체를 포함하여 55,953,617,210 bp를 확보하였고 두번째 pooling은 118개체를 포함하여 55,184,871,466 bp의 서열을 확보하였다. 총 230개체의 BC1F1 자손에서 111,138,488,676 bp를 확보하여 분석하였다. 첫번째 pool의 결과를 살펴보면 샘플 당 평균 원시 리드(raw read)의 수는 3,565,014개가 확보되었다. 어댑터와 저품질의 서열을 제거하면 리드의 평균 길이는 83.5 bp를 확보하였고 이를 참조유전체에 매핑하였을 때 85.78%의 리드가 매핑(mapping)되었다. GBS 분석이 얼마나 많은 영역을 조사하는지를 확인하기 위하여 매핑 영역을 조사하였을 때 평균 83,832 매핑 영역이 조사되었다. 매핑 영역에서 조사되는 read depth는 약 10.98로 조사되었다. Read depth per SNP는 homozygous-type SNP 또는 heterozygous-type SNP를 구분하거나 유전자형의 정확도를 결정하는 지표로 사용하였다. 두번째 pool의 결과를 살펴보면 샘플 당 평균 원시 리드의 수는 4,098,496개가 확보되어 첫번째 pool에 비해 샘플수가 많음에도 불구하고 샘플 별 확보된 원시 리드의 수가 증가된 것을 확인하였다. 어댑터와 저품질 서열을 제거하면 리드의 평균 길이는 80.7 bp를 확보하였고 이를 참조 유전체에 매핑하였을 때 84.02%의 리드가 매핑되어 첫번째 pool에 비해 소폭 감소하였다. 매핑 영역을 조사하였을 때 평균 48,491 매핑 영역이 조사되어 첫번째 pool에 비해 상당히 적은 영역에서 시퀀싱되었음을 확인하였다. 매핑 영역에서 조사되는 read depth는 약 15.98로 첫번째 pool보다 높게 조사되었는데 이는 매핑 영역이 줄어들면서 read depth가 증가된 것으로 판단하였다. BC2F1의 경우 총 96개의 샘플(SV17-BC2F1 71개, HA1-BC2F1 25개)을 1개의 pool로 만들어 GBS를 실시하였다. 총 96개체의 BC2F1 자손에서 106,989,031,432 bp의 염기서열을 생산하였다. 샘플 당 평균 원시 reads의 수는 6,928,803개가 확보되어 BC1F1에 비해 2배 정도 증가하였는데 이는 샘플의 수는 절반 이하로 줄었지만 생산된 염기서열의 총량은 유사했기 때문이다. 어댑터와 저품질의 서열을 제거하면 read의 평균길이는 116.59 bp로 증가되었다. 반면 이를 참조유전체에 매핑하였을 때 76.01%의 reads가 매핑되어 매핑률(mapping rate)이 감소되었다. 매핑 영역을 조사하였을 때 평균 70,261 매핑 영역이 조사되었다. 매핑 영역에서 조사되는 read depth는 24.37로 가장 높게 나타났다.
실시예 2. GBS 분석 데이터 기반의 SNP 선별
BC1F1 분석에 사용한 230개 샘플을 하나로 통합하여 SNP를 탐색하였을 때 총 223,998개 SNPs가 확보되었다. MAF 5% 이하인 SNP를 제거하면 33,350개 SNPs 좌가 확인되었고, SNP 좌 별로 30% 이상의 샘플에서 결측(missing data)이 일어난 좌를 제거했을 때는 42,572 SNPs 좌가 확인되었다. MAF와 결측치 기준을 동시에 적용했을 때는 2,231개 좌가 확보되었다. GBS에서 일반적으로 사용하던 96개 단위의 다중 지표(multiplex index)에 비해 개체별로 시퀀싱 원시 reads 생산량이 고르지 않고 불균형적으로 생산된 것을 확인하였다. 원시 read의 생산량이 1,000,000개 이하의 샘플은 첫번째 pool에서 16개, 두번째 pool에서 32개 샘플로 확인되었고, 1,000,000개 reads 이하로 생산된 48개 샘플을 제외한 182개 샘플을 이용하여 SNP를 선발하였을 때 총 219,812 SNPs가 확보되었다(표 1). MAF 5% 이하 SNP를 제거하면 33,132 SNPs가 확인되었고, SNP 좌별로 30% 이상의 샘플에서 결측이 일어난 좌를 제거했을 때 64,124 좌가 확인되었다. MAF와 결측치 기준을 동시에 적용했을 때는 3,897개 SNPs 좌가 확보되었다. SNP 좌의 수를 더 확보하기 위하여 MAF 5% 이하, 결측치 50% 이하 조건으로 완화하여 총 4,060 SNPs 좌를 확보하였다.
Figure pat00003
BC2F1 분석에 사용한 96개 샘플을 이용하여 SNP를 분석하였을 때는 총 110,961 SNPs를 확보하였다. 원시 reads 생산량이 1,000,000 reads 이하인 샘플이 2개 샘플로 확인되어 분석에서 제외하고 94개의 샘플을 분석하였을 때는 총 61,214개 SNPs가 확보되었다(표 1). MAF 5% 이하이면서 SNP 좌별로 30% 이상의 샘플에서 결측이 일어난 좌를 제거하여 총 4,906 개의 SNPs가 확보하여 이후 분석에 사용하였다.
실시예 3. 단상형 기반의 유전자형 분석 및 교정
본 발명에서 사용한 SNP는 biallelic 유형을 사용하였기 때문에 4개 부모의 유전형을 구분할 수 없다. 따라서 20개의 SNP를 단상형 블록(haplotype block)으로 묶어서 4개의 부모간 유전형을 분석하고자 하였다(도 2A). 유래부모의 결정은 k-NN 알고리즘을 적용하여 4개의 부모와 비교하여 평균값을 적용하여 적정 유래부모를 판정하였다. 결과는 기존에 유전자 기반 단상형 분석과 동일하게 2개의 유전형으로 구분되는 것을 확인하였다. 유형으로 나누어 보면, 두개의 부모씩 유전형이 동일한 경우 즉, A와 B의 유전형이 같고 C와 D 유전형이 같은 경우, 혹은 3개의 부모 유전형은 같고 나머지 1개의 부모 유전형이 다른 경우, 예를 들어 A, B, C 가 동일한 유전형을 가지고 있고 D는 다른 유전형을 가진 유형으로 구분되었다. 따라서 이러한 문제는 회복친에 가중치를 주어 회복률을 계산하도록 하였다. 예를 들어 SV17를 이용해 여교잡을 실시하는 T4 계통은 SNP 염기를 염색체별 위치별로 정렬 후 4개의 부모친의 해당 좌 염기와 비교하였다(도 2B). 그 결과 T4 계통의 염색체 10을 구성하도록 하는 유래 부모는 SV17와 MS15가 가능한데, 이 중 SV17로부터 유래되었다고 판단하였다. 이는 k-NN 알고리즘에 가장 적합하기도 하고 회복친으로 사용된 SV17을 제공친으로 우선권을 부여하였기 때문이다. T5 계통의 경우 T5의 SNP가 헤테로형이기 때문에 H (green color)로 선정하고 k-NN 알고리즘에 따라 헤테로형으로 결정하였다. 이와 마찬가지로 B19와 B20 계통은 HA1를 회복친으로 사용하는 HA1-BC2F1 집단에 속한다(도 2C). 단상형 방법이나 k-NN 알고리즘에 의한 유래친을 판단해 보면 TGA2와 HA1은 해당 부위가 동일한 유전형을 가지고 있는 것으로 관찰된다. 그러나 k-NN 평균값과 HA1이 회복친인 것을 적용하여 B19의 염색체 10의 해당부위는 HA1으로부터 유래되었다고 판단하였다. B20 계통의 경우 4개의 불일치 되는 염기가 존재함에도 불구하고 k-NN 알고리즘에 의해 헤테로형으로 판정된 사례이다. 이와 같이 k-NN 알고리즘에 의해 유래부모를 판정하고 확인할 수 있는 manual curation tool을 통해 판정의 적합성을 재확인하였다.
실시예 4. Graphical representation 방법에 의한 염색체 도식화(chromosome visualization)
여교잡 집단의 각 계통은 부모의 유전자형에 따라 염색체의 순서를 따라 단상형에 의한 유전자형을 결정하였다. 부모 샘플의 유전자형은 TGA2=A (red), SV17=B (blue), MS15=C (yellow), HA1=D (black)으로 정의하고, 헤테로형일 경우 'H'(green color)로 설정하였다. 염색체별 재조합 빈도는 기존 보고에서 염색체당 2회임을 고려하여 5회 이내로 발생할 것으로 추정하였다(de Haas et al. 2017). 20 SNPs 단위의 단상형을 염색체의 순서에 따라 이동하면서 부모 유전형을 추정하고 두번째 단계로 k-NN 알고리즘에 의하여 산발적으로 발생하는 유전자형 오류를 교정하였다. 즉 20개의 SNPs를 각각 4개의 부모와 비교하여 동일한 유전자형을 갖는 부모를 결정한 후 평균 이상의 유전자형을 갖는 부모로 추정하였다. 평균에 미치지 못하는 경우는 결정하지 않고 다음 부위로 이동하여 동일하게 유래부모를 예측하였다. 이전의 유전형과 동일한 부모인 경우는 결정하지 못한 부위를 전후의 부모형으로 결정하였다. 만약에 다른 부모형으로 결정이 되면 재조합이 발생되는 것으로 결정하였다. 염색체별 재조합 패턴과 빈도를 살펴보면 염색체별 고유의 특징이 있는 것을 확인할 수 있다. BC2F1 집단을 보면 5번 염색체와 8번 염색체는 전체 개체에서 회복률이 상당히 높게 나타나고 있는 반면 3번 염색체나 6번 염색체는 회복률이 비교적 낮게 나타나고 있다(도 3). 재조합이 발생되는 부위는 비교적 선호되는 영역이 존재하는 것으로 보여 기존의 보고와 일치된 결과를 보였다(de Haas et al. 2017). 목표형질이 존재하는 부위를 알고 있는 경우 염색체별 선발결과를 확인하는 것과 개체의 12개 염색체를 모두를 확인하였다(도 4).
실시예 5. 회복률 계산
BC1F1과 BC2F1의 회복친 회복률과 헤테로형 영역을 계산하였다(도 5). 회복률은 부모친의 다형성 전체 SNPs 중에서 회복친 특이적 SNPs를 구하여 %로 전환하였다. SV17를 회복친으로 하는 SV17-BC1F1 집단에서 가장 낮은 회복률을 보인 계통은 S41로 55.25%의 회복률을 보였고, 가장 높은 계통은 S113으로 93.49%의 회복률을 보였다. BC1F1 집단의 평균 회복률은 79.1%였다. HA1을 회복친으로 하는 HA1-BC1F1의 경우는 최저 51.12%에서 최고 95.92%의 회복률을 보였다. 헤테로형의 비율을 보면 SV17-BC2F1의 경우 4.21%에서 34.86% 범위로 존재하였다. HA1-BC2F1의 경우는 3.76%에서 27.16%의 헤테로형으로 구성되었다. BC2F1 집단의 평균 회복률은 80.2%였다. 이러한 결과를 통해 BC1F1과 BC2F1 단계 모두에서 5% 이내의 헤테로형을 가진 계통을 선발할 수 있음을 의미한다.

Claims (7)

  1. (a) 교배 육종에 사용된 부모친 및 자손 개체들의 유전체 염기서열을 대상 작물의 표준 유전체(reference genome) 염기서열에 정렬(alignment)한 후, 표준 유전체와 대비되는 SNP (single nucleotide polymorphsim)를 대량으로 탐색하는 단계;
    (b) 상기 (a) 단계에서 탐색된 SNP를 대상으로, 교배 육종에 사용된 부모친 및 자손 개체들의 SNP 매트릭스(matrix)를 작성하는 단계;
    (c) 상기 (b) 단계에서 작성된 SNP 매트릭스를 대상으로 SNP가 발생한 염색체 위치 정보에 기반하여 인접한 10~100개의 SNP를 하나의 단상형(haplotype) 단위로 분류하는 단계;
    (d) 상기 (c) 단계에서 분류된 단상형 단위의 유전형을 자손 개체들과 교배 부모친 간에 비교하여 해당 유전형의 유래 부모친을 결정하는 단계; 및
    (e) 상기 (d) 단계에서 결정된 단상형 단위의 유전형 유래 부모친을 염색체의 순서에 따라 그래픽 도식화하는 단계;를 포함하는, 교배 육종의 자손 개체들의 유전체에서 부모친 유전형 조합을 추적하는 방법.
  2. 제1항에 있어서, 상기 (a) 단계의 교배 육종에 사용된 부모친 및 자손 개체의 염기서열은 품질(quality)을 측정하고, 기준 값 이상 품질의 서열로 선별(filtering)된 염기서열인 것을 특징으로 하는, 교배 육종의 자손 개체들의 유전체에서 부모친 유전형 조합을 추적하는 방법.
  3. 제2항에 있어서, 상기 서열 품질의 기준 값은 프레드 스코어(phred score) 20 이상, 염기서열 길이 25 bp 이상인 것을 특징으로 하는, 교배 육종의 자손 개체들의 유전체에서 부모친 유전형 조합을 추적하는 방법.
  4. 제1항에 있어서, 상기 (a) 단계의 SNP 탐색 조건은 SNP에 대한 최소 매핑 품질(minimum mapping quality for SNPs, Q) 25~30, 공백에 대한 최소 매핑 품질(minimum mapping quality for gaps, q) 15, 최소 리드 깊이(minimum read depth, d) 3~10, 최대 리드 깊이(D) 100~202, 주변 SNP 필터링에 대한 최소 InDel 점수(min indel score for nearby SNP filtering, G) 30, 및 필터링할 공백 주위의 INT (integer) bp 내 SNP (SNP within INT bp around a gap to be filtered, w) 10~30인 것을 특징으로 하는, 교배 육종의 자손 개체들의 유전체에서 부모친 유전형 조합을 추적하는 방법.
  5. 제1항에 있어서, 상기 (d) 단계의 유래 부모친의 결정은 단상형 단위의 유전형 추정법 및 k-최근접 이웃(k-Nearest Neighbor) 알고리즘을 이용한 유전형 오류 교정법을 통해 수행되는 것을 특징으로 하는, 교배 육종의 자손 개체들의 유전체에서 부모친 유전형 조합을 추적하는 방법.
  6. 제5항에 있어서, 상기 유래 부모친 결정에 있어서, 단상형 단위의 유전형이 동일한 부모친이 2개 이상일 경우 회복친(recurrent parent)에 가중치를 주어 결정하는 것을 특징으로 하는, 교배 육종의 자손 개체들의 유전체에서 부모친 유전형 조합을 추적하는 방법.
  7. 제1항 내지 제6항 중 어느 한 항의 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체.
KR1020210160944A 2021-11-22 2021-11-22 Snp 단상형과 염색체 도식화를 이용한 복교배에 의한 여교배 육종 식물체의 유전형 추적 방법 KR20230074892A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210160944A KR20230074892A (ko) 2021-11-22 2021-11-22 Snp 단상형과 염색체 도식화를 이용한 복교배에 의한 여교배 육종 식물체의 유전형 추적 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210160944A KR20230074892A (ko) 2021-11-22 2021-11-22 Snp 단상형과 염색체 도식화를 이용한 복교배에 의한 여교배 육종 식물체의 유전형 추적 방법

Publications (1)

Publication Number Publication Date
KR20230074892A true KR20230074892A (ko) 2023-05-31

Family

ID=86543285

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210160944A KR20230074892A (ko) 2021-11-22 2021-11-22 Snp 단상형과 염색체 도식화를 이용한 복교배에 의한 여교배 육종 식물체의 유전형 추적 방법

Country Status (1)

Country Link
KR (1) KR20230074892A (ko)

Similar Documents

Publication Publication Date Title
Brinton et al. A haplotype-led approach to increase the precision of wheat breeding
CN109196123B (zh) 用于水稻基因分型的snp分子标记组合及其应用
Chagné et al. Genome-wide SNP detection, validation, and development of an 8K SNP array for apple
Moghaddam et al. Developing market class specific InDel markers from next generation sequence data in Phaseolus vulgaris L.
Evans et al. Extensive variation in the density and distribution of DNA polymorphism in sorghum genomes
Akagi et al. Genome-wide view of genetic diversity reveals paths of selection and cultivar differentiation in peach domestication
Cai et al. Genetic structure of a QTL hotspot on chromosome 2 in sweet cherry indicates positive selection for favorable haplotypes
Li et al. Construction of high-density genetic map and mapping quantitative trait loci for growth habit-related traits of peanut (Arachis hypogaea L.)
CN111508560B (zh) 一种构建异交物种高密度基因型图谱的方法
US20140208449A1 (en) Genetics of gender discrimination in date palm
Caballero et al. Toward genomic selection in Pinus taeda: Integrating resources to support array design in a complex conifer genome
CN110675915B (zh) 一种同时定位两个性状相关基因的方法
O’Connor et al. Population structure, genetic diversity and linkage disequilibrium in a macadamia breeding population using SNP and silicoDArT markers
Ries et al. Rapid gene identification in sugar beet using deep sequencing of DNA from phenotypic pools selected from breeding panels
US20230255157A1 (en) Methods for genotyping haploid embryos
Manching et al. Phased genotyping-by-sequencing enhances analysis of genetic diversity and reveals divergent copy number variants in maize
KR101539737B1 (ko) 유전체 정보와 분자마커를 이용한 여교잡 선발의 효율성 증진 기술
CN107862177B (zh) 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法
Tong et al. High-quality SNP linkage maps improved QTL mapping and genome assembly in Populus
CN112489727A (zh) 一种快速获取罕见病致病位点的方法和系统
CN117095746A (zh) 一种用于水牛的gbs全基因组关联分析方法
KR20230074892A (ko) Snp 단상형과 염색체 도식화를 이용한 복교배에 의한 여교배 육종 식물체의 유전형 추적 방법
CN108416189B (zh) 一种基于分子标记技术的农作物品种杂种优势模式鉴定方法
CN113793637B (zh) 基于亲本基因型与子代表型的全基因组关联分析方法
KR101911307B1 (ko) 유전자 단위에서 단상형을 구분하는 태그-snp 선발 및 활용 기술