KR101539737B1

KR101539737B1 - 유전체 정보와 분자마커를 이용한 여교잡 선발의 효율성 증진 기술

Info

Publication number: KR101539737B1
Application number: KR1020140046457A
Authority: KR
Inventors: 조성환; 이정희
Original assignee: 주식회사 씨더스
Priority date: 2014-04-18
Filing date: 2014-04-18
Publication date: 2015-07-28
Anticipated expiration: 2034-04-18

Abstract

본 발명은 유전체 정보와 분자마커를 이용한 여교잡 선발의 효율성 증진 기술에 관한 것으로, 본 발명의 유전체 정보를 이용한 염색체 구획화 및 분자마커 선발 기술을 이용한 MAB용 분자마커 선발 기술을 여교잡 선발(MAB; marker-assisted backcrossing) 육종에 적용하면, 기존의 여교잡에 의해 목표 형질이 도입된 품종을 선발하는데 6~7세대 이상의 시간이 소요되는 전통육종방식에 비해 여교잡 2세대에서부터 품종을 선발할 수 있어, 품종 육성기간을 2~3세대 가량 단축할 수 있으며, 작물 개량시 소요되는 노동력 및 비용도 대폭 절감할 수 있어 육종의 규모와 효율성을 증대시킬 수 있다.

Description

유전체 정보와 분자마커를 이용한 여교잡 선발의 효율성 증진 기술{Methodology for improving efficiency of marker-assisted backcrossing using genome sequence and molecular marker}

본 발명은 유전체 정보와 분자마커를 이용한 여교잡 선발의 효율성 증진 기술에 관한 것으로, 더욱 상세하게는 분자마커를 개발하고자 하는 개체 및 개체와 교배 가능한 다른 개체들의 차세대 시퀀싱으로 생산된 유전체(genome) 또는 전사체(transcriptome) 염기서열을 수집한 후, 염기서열을 개체의 표준 유전체(reference genome)에 대해 정렬(alignment)하고, 공통 염기서열(consensus sequence) 선발 프로그램으로 표준 유전체와 대비되는 분자마커를 확인하여 교배 조합별로 차이를 보이되 프라이머가 이용 가능한 분자마커로 데이터베이스를 구축한 후, 최소한의 분자마커를 이용하여 개체의 염색체 전체 조성을 확인할 수 있도록 염색체 구획화 기술을 적용한 분자마커 선발 방법 및 상기 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체에 관한 것이다.

표준유전체 정보가 밝혀지고 차세대 염기서열 시퀀싱(next generation sequencing, NGS)을 이용한 대용량 염기서열 생산이 가속화되면서 유전체 기반의 분자육종은 종자시장 및 육종산업에 새로운 동력으로 각광받고 있다. 분자육종은 원하는 형질의 유무를 형질에서 유래한 표현형의 관찰 없이 DNA 염기서열의 차이를 나타내는 분자마커(molecular marker)를 이용해 판별하는 기법을 비롯해 크게 발전하고 있다(Edwards & Batley, 2010, Plant Biotechnology Journal. 8:2-9). 분자육종 과정은 크게 개량하고자 하는 새로운 형질을 도입하는 과정과 회복친(recurrent)의 우수형질을 유지시키는 과정으로 나눌 수 있다. 이 중 MAB(Marker-assisted Backcrossing)는 후자에 속하는 기술로 3개의 하위 단계를 포함하는데, 첫 번째로 목표 형질 또는 QTL(Quantitative trait locus)로의 대체를 위한 마커를 사용하는 '포어그라운드 선발(foreground selection)'이 있고, 두 번째로 목표 유전자와 연관된 마커 사이의 재조합이 일어난 여교잡 자손을 선발하는 '재조합 선발(recombination selection)'이 있다. 마지막으로 본 발명의 목적이기도 한 '백그라운드 선발(background selection)'은 목표유전자와 연관되어 있지 않은 마커를 사용하여 목표 유전자 부위를 제외한 모든 부분이 회복친의 유전체 구성을 갖는 여교잡 자손을 선발하는 것이다(Collard & Mackill, 2008, Phil . Trans. R. Soc . B. 363:557-572). 다시 말하면, MAB는 분자마커를 사용하여 어린 시기에도 여교잡 자손의 염색체 전체 조성을 확인함으로써 여교잡 자손이 회복친의 우수형질을 가진 유전체 구성으로 회복하는데 걸리는 시간을 단축시키는 중요한 육종기법이다(Edwards & Batley, 2010, Plant Biotechnology Journal. 8:2-9).

기존의 여교잡 육종이 6~7세대 이상의 시간이 소요되는 것에 비해 분자마커를 이용한 여교잡 선발(MAB) 육종은 빠르면 여교잡 2세대에서부터 개체를 선발할 수 있기 때문에, 신품종 육성기간을 단축할 수 있고, 작물 개량에 소요되는 노력과 비용을 절감하여 육종의 규모와 효율성을 증대시킬 수 있다는 이점을 제공한다(Ibitoye & Akin-Idowu, 2010, African Journal of Biotechnology. 9(52):8889-8895). 벼를 비롯한 다양한 작물에서 MAB 육종기술을 적용한 사례들이 국외에서 보고되고 있으나 육종에 실질적인 도움이 되는 MAB 기술은 국내외적으로 아직 미흡한 실정이다. MAB 기술의 효율성을 증진시켜 육종 현장에 적용하기 위해서는 기본적으로 몇 가지 조건이 필요하다. 첫째, 유전체 전체적(genome-wide)으로 골고루 퍼져있는 충분한 수의 MAB용 분자마커를 확보해야 하며, 둘째, 교배 조합이 바뀔 때마다 적용가능한 마커를 쉽게 확인할 수 있어야 한다. 또한, 유전형분석(genotyping)에 필요한 분자마커만을 선발하여 소모비용을 최소화해야 한다.

분자마커는 DNA 서열에서 일어나는 변이의 종류에 따라 나뉘는데, 최근 NGS 기술의 발달과 더불어 이용되는 대표적인 분자마커는 SSR(Simple Sequence Repeat), SNP(Single Nucleotide Polymorphisms), In/Del(Insertion/Deletion) 등이 있다. 단순반복염기서열을 활용한 SSR 분자마커는 이형접합체(heterozygote)를 구분할 수 있어 유전자지도 작성에 많이 활용되며, DNA 염기배열상의 1개 염기서열의 차이까지 추적하여 이용할 수 있는 SNP 분자마커는 유전체 전체적으로 가장 빈번하게 나타나며, 안정적으로 이용할 수 있다는 장점이 있다. In/Del 분자마커는 유전체 내 특정 염기서열이 삽입(insertion)되거나 제거(deletion)되어 개체 간 염기서열 차이를 유발하는 변이로 염기서열의 길이 차이를 이용한 분자마커로 이용된다.

이에 따라 최근에는 여러 작물에서 NGS를 통해 해독된 유전체 정보를 기반으로 분자마커를 발굴하여 대량의 분자마커를 빠르게 확보하고 있으며 인실리코(in silico) 분석을 통해 농업적으로 중요한 유전자를 확인할 수 있는 유용한 MAB 마커로도 응용되고 있다.

한편, 한국공개특허 제2012-0121500호에는 '십자화과 식물 유전자의 진화 및 기능 연구를 위한 발현 유전체 비교분석 시스템 구축 방법'이 개시되어 있고, 한국공개특허 제2011-0064699호에는 '단일염기다형성(SNP) 유전자형의 분석 방법 및 장치'가 개시되어 있다. 그러나 본 발명의 유전체 정보와 분자마커를 이용한 여교잡 선발의 효율성 증진 기술에 대해서는 기재된 바가 없다.

본 발명은 상기와 같은 요구에 의해 도출된 것으로서, 여교잡 육종 과정에서 선발하고자 하는 개체의 공여친(donor) 유래의 염색체 구성과 회복친(recurrent) 유래의 염색체 구성을 분자마커를 통해 확인하여 원하는 최적의 우수 개체를 선발하고자 하였다. 공여친 또는 회복친 유래의 염색체 구성을 알아내기 위해 해결해야 하는 부분 및 본 기술의 내용은 첫째로 공여친을 확인할 수 있는 분자마커와 회복친을 확인할 수 있는 유전체 전체적(genome-wide)으로 이용 가능하면서 충분한 수의 분자마커를 확보하여야 한다. 둘째로 확보된 분자 마커들의 염색체 내 위치를 알아야 확인하고자 하는 개체의 염색체 구성을 예측할 수 있다. 셋째로 공여친과 회복친이 변경될 때, 교배조합 간에 이용 가능한 분자마커를 쉽게 알아내고 확보하는 것이 중요하다. 넷째로 육종에 소모되는 비용을 절감하기 위해 유전형 분석에 필요한 최소한의 분자마커를 선발하기 위해서는 교배 시 발생되는 염색체 교차의 특징을 이해하여야 한다.

기존의 여교잡 육종은 공여친으로부터 개량하고자 하는 새로운 형질을 도입하고 회복친의 우수형질들을 유지시키는 과정에서 선발 목표형질과 연관되어 있지 않은 마커를 사용하여 회복친의 유전체 구성을 목적으로 여교잡 자손의 6~7세대 이상의 후대를 진전시켜서 개체를 선발하게 된다. 이런 과정은 신품종육성을 이용한 분자 육종이 시도됨에 따라 경제성이 나아지고 있지만, 실질적으로 적용할 수 있는 분자 마커 수 측면에서나 교배조합의 변동에 따른 한계로 분자육종의 활용도는 제한되고 있는 상황이다.

따라서 본 발명자는 작물의 교배 조합별로 이용 가능한 대량의 분자마커 데이터베이스를 구축하여, 분자마커를 검출할 수 있는 프라이머 세트를 제공하며, 개체의 염색체 교차의 특징을 이해한 염색체 구획화로 최소한의 분자마커를 사용하면서 여교잡의 유전체 전체를 확인하여 여교잡 육종의 효율성을 증진시킬 수 있는 MAB용 분자마커 선발 기술을 제공함으로써, 본 발명을 완성하였다.

상기 과제를 해결하기 위해, 본 발명은 분자마커를 개발하고자 하는 개체 및 개체와 교배 가능한 다른 개체들의 차세대 시퀀싱(Next-generation sequencing, NGS)으로 생산된 유전체(genome) 또는 전사체(transcriptome) 염기서열을 확보한 후, 염기서열을 개체의 표준 유전체(reference genome)에 대해 정렬(alignment)하고, 공통 염기서열(consensus sequence) 선발 프로그램으로 표준 유전체와 대비되는 분자마커(molecular marker)용 염기서열 변이를 확인하여 교배 조합별로 차이를 보이되 프라이머가 이용 가능한 분자마커로 데이터베이스를 구축한 후, 최소한의 분자마커를 이용하여 개체의 염색체 전체 조성을 확인할 수 있도록 염색체 구획화 기술을 적용한 분자마커 선발 방법을 제공한다.

공여친을 확인할 수 있는 분자마커와 회복친을 확인할 수 있는 충분한 수의 분자마커를 확보하기 위해, 차세대 시퀀싱으로 얻어진 대용량의 염기서열을 기반으로 유전체 전체(genome-wide)를 아우를 수 있는 대량의 SNP, SSR 또는 In/Del 분자마커를 선발하는 방법을 개발하였다.

둘째로 분자마커의 염색체 내 위치를 알아내는 방법은 표준 유전체 정보를 이용하여 선발된 분자마커의 염색체 내 위치를 확보하고, 분자마커를 염색체 순서별, 그리고 염색체 내 순서대로 정렬하여 구성을 확인하는데 사용하였다.

셋째로 교배조합이 바뀔 때마다 어떤 분자마커가 이용가능한지 확인하기 위하여, 빈번하게 이용되는 회복친의 유전체 정보를 미리 확보하고, 분자마커 데이터베이스를 구축하고 교배조합이 바뀔 때마다 이용 가능한 분자마커를 쉽게 선발할 수 있는 방법을 개발하였다.

또한, 확보한 대량의 분자마커 중에서 소모비용을 최소화하면서 염색체 전체의 구성을 확인하기 위한 최소한의 분자마커를 선발하기 위해, 교배 시 일어나는 염색체 교차의 특징을 이해하여 염색체를 구획하는 방법을 개발하였다. 토마토와 고추를 대상으로 한 실시예를 통해 교배 시 발생되는 염색체 교차 영역 및 빈도를 확인하였다. 염색체 교차가 빈번하게 발생하는 영역은 그렇지 않은 영역보다 분자마커를 더 할당하여 해당 부위의 염색체 조성을 자세히 조사하고, 교차가 적게 일어나는 영역은 분자마커 수를 줄여 전체 분자마커 사용 개수를 최소화하고자 하였다.

또한, 본 발명은 상기 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체를 제공한다.

본 발명에 따른 염색체 전체 조성을 확인할 수 있는 최소한의 MAB용 분자마커를 이용하여서도 자손 개체를 조사하면 해당 개체의 공여친 유래의 염색체 부위와 회복친 유래의 염색체 부위를 확인할 수 있게 된다. 즉, 도입하고자 하는 목표형질인 공여친 유래의 염색체 부위 보유 여부와 목표 형질 연관부위 이외의 부위가 회복친 유래의 염색체로 구성되었는지를 확인하여 우수 개체의 고정여부 및 회복친으로의 회복여부를 알 수 있게 된다. 따라서 기존에 목표 형질이 도입된 품종을 선발하는데 6~7세대 이상의 시간이 소요되는 전통육종방식에 비해 MAB는 여교잡 2세대에서부터 품종을 선발할 수 있어, 품종 육성기간을 기존 방법에 비해 2~3세대를 단축할 수 있다. 또한, 육성기간이 단축됨에 따라 작물 개량시 소요되는 노동력 및 비용을 절감할 수 있어 육종의 규모와 효율성을 증대시킬 수 있다.

도 1은 고추 부/모본과 자손 120 RILs(Recombinant Inbred Lines) 개체의 유전체 재분석 서열(resequencing)을 이용하여 genome-wide SNP를 확보하고, 각 자손의 유전형(genotype)이 부본 유래인지, 모본 유래인지 조사하여, 각 염색체 내에서 부본과 모본 유래의 염색체 조각(fragment)이 어떤 구성으로 조합되었는지를 시각적으로 표현한 결과의 한 예로, 12개 염색체 중 자손 120 개체의 2번 염색체를 예시로 나타낸 것이다. 제일 왼쪽은 2번 염색체의 모형이며, 약 188 Mb의 염색체 길이를 10등분하여 약 19 Mb 마다 위치(position)를 숫자로 표현하였다. 그 오른쪽 영역은 120개 자손의 2번 염색체 모형을 세운 것이며, 상단에는 각 자손의 이름을 나타내었고, 각 염색체 모형에서 붉은색은 모본 유래, 파란색은 부본 유래의 염색체 조각을 의미한다. 염색체 모형에서 노란색으로 표현된 부분은 DNA 서열을 얻기 위한 실험적 과정에서의 샘플링 오류나, 염기서열의 부족으로 인해 유전형을 정확히 확인할 수 없는 부분이다.
도 2는 염색체의 물리적 거리(physical distance)와 유전적 거리(genetic distance) 간의 관계를 나타낸다. 토마토 Solanum lycopersicum LA925 품종과 S. pennelli LA716 품종 간의 유전지도 Tomato-EXPEN 2000과 유전체 염기서열 정보를 이용하여 계산한 12개 염색체별 유전자 재조합 비율(recombination rate)을 나타낸 그래프이다. 가로축은 물리적 거리, 세로축은 유전적 거리(cM)를 나타낸다. 염색체의 위치에 따라 물리적 거리 대비 유전적 거리가 상당히 차이가 있음을 알 수 있다.
도 3은 염색체의 물리적 거리를 기반으로 한 염색체 분획 및 교배조합 간 이용 가능한 MAB 분자마커를 선발하는 프로그램을 나타낸다. 토마토 Solanum lycopersicum FL 7600 계통과 S. pimpinellifolium PI212816 계통의 교배 조합에서 이용 가능한 SNP 분자마커를 예시로 나타낸 것이며, 다른 교배조합을 선택하여 이용할 수 있다. 12개 각 염색체 모형을 동등한 크기로 5등분하여 각 구획은 하늘색과 노란색으로 번갈아 표현하였고, 한 구획 당 3개의 SNP 마커를 선발하여 염색체 위에 SNP의 위치를 표시하였다. 프로그램 하단에는 SNP 및 프라이머 정보를 제공한다.
도 4는 염색체의 물리적 거리와 유전적 거리 간 유전자 재조합 비율을 측정한 결과를 토대로 한 염색체 분획 및 교배조합 간 이용 가능한 MAB 분자마커 선발 프로그램을 나타낸다. 도 4도 토마토 Solanum lycopersicum FL7600 계통과 S. pimpinellifolium PI212816 계통의 교배 조합에서 선발한 SNP 마커를 예시로 나타낸 것이며, 다른 교배조합을 선택하여 이용할 수 있다. 각 염색체 내 구획의 크기는 재조합 비율을 적용하여 차등적으로 나누되 15개로 나누었고, 한 구획 당 1개의 SNP 마커를 할당하여 염색체 위에 SNP의 위치를 표시하였다.

본 발명의 목적을 달성하기 위하여, 본 발명은

a) 차세대 시퀀싱(next generation sequencing, NGS)을 통해 마커를 개발하고자 하는 개체 및 개체와 교배 가능한 품종의 유전체(genome) 또는 전사체(transcriptome) 염기서열을 생산하거나 공개 데이터베이스에서 염기서열을 수집하는 단계;

b) 상기 a) 단계의 염기서열의 품질(quality)을 측정하고, 기준 값 이상 품질의 서열로 선별(filtering)하는 단계;

c) 상기 b) 단계의 선별된 염기서열을 개체의 표준 유전체(reference genome)의 염기서열에 대해 정렬(alignment)한 후, 표준 유전체와 대비되는 분자마커를 추출하는 단계;

d) 상기 c) 단계에서 추출된 개체들의 전체 분자마커 중 교배가 가능한 품종 간 분자마커를 비교하여 교배 조합별로 차이를 나타내는 분자마커 또는 교배양친 간 차이를 보이는 분자마커를 선발하는 단계;

e) 상기 d) 단계에서 선발된 분자마커의 위치에 해당하는 교배조합들 또는 개체들의 분자마커를 대상으로 매트릭스(matrix) 형태로 만드는 단계;

f) 상기 e) 단계의 분자마커 매트릭스로부터 분자마커를 검출할 수 있는 프라이머(primer) 세트를 디자인하고, 상기 프라이머를 이용할 수 있는 분자마커만을 선발하여 MAB(Marker-assisted backcrossing)용 분자마커 데이터베이스를 구축하는 단계;

g) 상기 f) 단계의 분자마커 데이터베이스를 이용하여 MAB 분자마커를 선발하고자 하는 개체의 교배시 예측되는 염색체 교차 빈도 및 비율을 측정하는 단계;

h) 상기 g) 단계의 염색체 교차 평균 빈도 수에 따라 개체의 염색체를 동일 크기의 구획으로 나누는 물리적 거리(physical distance) 기준 또는 평균 염색체 교차 비율에 따라 차등 구획을 적용하여 유전적 거리(genetic distance)를 기준으로 개체의 염색체를 분획하는 단계; 및

i) 상기 g) 단계 및 h) 단계의 결과에 따라, 실시하고자 하는 교배조합 변경에 의해 염색체 구획별 분자마커를 선발하는 단계를 포함하는 여교잡 선발의 효율성이 증진된 염색체 구획화 및 MAB용 분자마커 선발 방법을 제공한다.

본 발명의 일 구현 예에 따른 방법에서, 상기 a)단계의 공개 데이터베이스는 SRA(short read archive) 데이터베이스일 수 있으나, 마커를 개발하고자 하는 개체의 유전체 또는 전사체 염기서열을 제공하거나 생산하는 데이터베이스 또는 NGS 기기라면 이에 제한되지 않는다.

본 발명의 일 구현 예에 따른 방법에서, 상기 b) 단계의 서열 품질은 서열 품질 분석 프로그램을 이용하여 측정될 수 있으며, 예를 들면 FASTX-Toolkit, FastQC, SolexaQA package를 이용하여 측정될 수 있으나, 이에 제한되는 것은 아니다. 상기 서열 품질 분석 프로그램을 이용하여 분석하는 서열 품질의 기준 값의 범위는 프레드 스코어(phred score) 0 내지 40, 염기서열 길이 0bp 내지 100bp, 바람직하게는 프레드 스코어 20 내지 40, 염기서열 길이 25bp 내지 100bp일 수 있으나, 이에 제한되는 것은 아니다. 상기 프레드 스코어는 시퀀싱(sequencing) 결과에서 분석된 각 염기의 신뢰성을 수치로 표현한 것으로, 프레드 스코어 20은 분석된 각 염기서열 정보가 실제 염기서열과 다를 확률이 약 1/100이라는 의미이며, 통상적으로 프레드 스코어 20을 기준 값으로 설정할 수 있다. 상기 프레드 스코어 및 상기 염기서열의 길이는 분석 목적에 따라 범위 내에서 임의로 조절할 수 있다.

본 발명의 일 구현 예에 따른 방법에 있어서, 상기 c) 단계의 정렬 프로그램은 BWA(Burrows-Wheeler Aligner) 또는 TopHat일 수 있으나, 이에 제한되는 것은 아니다. 상기 BWA 정렬 프로그램의 정렬 옵션은 기본 값(default)으로 설정하여 수행할 수 있으나, 이에 제한되지 않으며, 상기 TopHat 정렬 프로그램의 옵션으로 최소 인트론 길이(min-intron-size) 40, 최대 인트론 길이(max-intron-size) 23000 및 불일치(mismatches) 1로 설정할 수 있으나, 이에 제한되지 않으며, 품종의 유전체 특성에 따라 임의로 조절하여 설정할 수 있다.

본 발명의 일 구현 예에 따른 방법에서, 상기 c) 단계의 분자마커 추출에 사용되는 프로그램으로는 SAMtools일 수 있으나, 이에 제한되는 것은 아니다. 상기 공통 염기서열 선발 프로그램을 이용하여 SNP 또는 In/Del 분자마커를 추출할 수 있으나, 이에 제한되는 것은 아니며, SSR 분자마커를 추출하기 위하여 다른 프로그램을 사용할 수 있다. 일반적으로 분자마커 추출 옵션은 기본 값(default)으로 설정하여 수행할 수 있으며, 정확도 높은 분자마커 추출을 위해서는 분석 목적에 따라 옵션 값을 임의로 조절할 수 있다.

본 발명의 일 구현 예에 따른 방법에서, 상기 f) 단계에서 분자마커는 공개된 임의의 프라이머 디자인 프로그램으로 디자인된 프라이머 세트를 이용하여 검출할 수 있다. 상기 프라이머 디자인 프로그램은 예를 들면, Primer3(v2.3.5;http://primer3.sourceforge.net/releases.php) 프로그램일 수 있으나, 이에 제한되는 것은 아니며, 사용 옵션은 기본 값(default)으로 설정하여 수행할 수 있으나, 분석 목적에 따라 옵션 값을 임의로 조절할 수 있다.

본 발명의 일 구현 예에 따른 방법에서, 상기 f) 단계의 MAB용 데이터베이스는 분자마커의 염색체 내 위치 정보를 포함하는 것일 수 있으나, 제한되지 않는다.

본 발명의 일 구현 예에 따른 방법에서, 상기 g) 단계에서 MAB 마커를 선발하고자 하는 작물의 교배 시 예측되는 염색체 교차 빈도 및 비율을 측정하기 위한 교배 조합 또는 교배 양친의 품종은 정해져 있지 않다.

본 발명의 일 구현 예에 따른 방법에서, 상기 h) 단계에서 분획한 염색체의 구획 수 및 구획 당 할당된 분자마커 수는 정해져 있지 않다.

컴퓨터로 판독할 수 있는 기록매체란 컴퓨터에 의해 직접 판독되고 엑세스될 수 있는 임의의 기록매체를 말한다. 이러한 기록매체로서는 플로피 디스크, 하드 디스크, 자기 테이프 등의 자기기록매체, CD-ROM, CD-R, CD, RW, DVD-ROM, DVD-RAM, DVD-RW 등의 광학기록매체, RAM이나 ROM 등의 전기 기록매체 및 이들 범주의 혼합물(예를 들면, MO 등의 자기/광학기록매체)을 들 수 있지만, 이들에 제한되는 것이 아니다.

상기 기록매체에 기록 또는 입력시키기 위한 기기 또는 기록매체 중의 정보를 판독하기 위한 기기 또는 장치의 선택은 기록매체의 종류와 엑세스 방법에 근거한다. 또한 여러 가지 데이터 프로세서 프로그램, 소프트웨어, 컴퍼레이터 및 포맷이 본 발명의 방법을 수행하기 위한 프로그램을 해당 매체에 기록시키기 위해 사용될 수 있다. 상기 정보는 예를 들면, 시판하는 소프트웨어로 포맷된 바이너리 파일(binary file), 텍스트 파일 또는 ASCII 파일의 형태로 나타낼 수 있다.

이하, 본 발명을 실시예에 의해 상세히 설명한다. 단, 하기 실시예는 본 발명을 예시하는 것일 뿐, 본 발명의 내용이 하기 실시예에 한정되는 것은 아니다.

[ 실시예 1] 고추 교배 양친 및 120 RILs 을 이용한 염색체 교차 빈도 조사

재료 및 방법

1. 고추 NGS 염기서열 생산

분자마커를 이용하여 회복친의 염색체 구성을 효율적으로 조사하기 위해서는 염색체를 적절히 구획하여 조사하는 것이 중요한 사항인데, 이를 위해 가지과 작물에 속하는 고추의 교배 양친 및 120 RILs(Recombinant Inbred Lines) 자손 유전체 서열을 이용하였다. 교배 양친 2종과 자손 120종으로 모두 Illumin HiSeq 기기의 paired-end 방식으로 생산하였다. 표준 유전체로 사용된 CM334 유전체 초안의 길이는 2,650,439,443 bp 이었다.

2. 생산된 염기서열의 SNP 추출

생산한 고추 염기서열들은 유전체 형태이므로 공개된 정렬 프로그램인 BWA(Burrows-Wheeler Aligner; v0.6.1-r104; Li and Dubin, 2009, Bioinformatics, 25:1754-1760)를 이용하여 고추 표준 유전체인 CM334 유전체 초안에 정렬(alignment)을 수행하였다. 프로그램 옵션으로는 미스매치(mismatch) 최대 2개, 씨드 랭스(seed length) 27 설정 외에 기본 값(default)을 적용하였다. 각 개체의 염기서열 정렬 결과는 공개된 공통 염기서열 추출 프로그램인 SAMtools(v0.1.16; Li et al., 2009, Bioinformatics, 25:2078-2079)를 이용하여 표준 유전체 대비 genome-wide SNP를 추출하였으며, 각 염기서열이 표준유전체의 각 영역에 정렬된 개수인 리드 뎁스(read depth)를 3 이상, 100 이하를 기준으로 적용하여 SNP를 얻었다.

3. 교배양친 간 SNP 선발 및 120개 자손과의 SNP 매트릭스 작성

교배양친 간 존재하는 SNP를 확보하기 위해 우선 표준 유전체와 부친 사이의 SNP, 표준 유전체와 모친 사이의 SNP를 발굴하여 부친과 모친 사이 즉, 교배 양친 간 차이를 보이는 SNP를 확인하여 SNP 위치를 확보하였다. 선발된 SNP 위치의 염기서열은 공통 염기서열로부터 취하여 부친과 모친 사이에 비교 가능하도록 SNP 매트릭스(matrix)를 작성하였다. 교배양친 간 SNP 위치에 해당하는 120개 자손의 공통 염기서열로부터 해당 염기서열을 취하여 교배양친과 120개 자손의 SNP 매트릭스를 작성하였다. 그 후, 120개 자손의 각 SNP가 부친 유래의 SNP 인지, 모친 유래의 SNP 인지 알파벳 문자(a, b, n) 및 색깔로 표현하여 유전형 매트릭스(genotyping matrix)를 작성하였다.

4. 유전형 매트릭스 이용 염색체 교차 횟수 조사

교배집단 자손 120 개체 유전체의 SNP 분자마커를 기반으로 각 자손의 유전형(genotype)이 부본 유래인지, 모본 유래인지 조사한 유전형 매트릭스(genotyping matrix)를 이용하여 각 개체의 각 염색체가 부본과 모본의 염색체 조각(fragment)의 어떤 구성으로 조합되었는지, 몇 번의 교차가 일어났는지 조사하였다. 한 개체 당 12개 염색체의 평균 교차 횟수와 각 염색체 당 120개 개체의 평균 교차 횟수를 조사하였다.

분석 결과

1. 고추 NGS 염기서열 생산 및 표준 유전체로의 정렬

고추 교배양친의 유전체는 각각 약 17 Gb의 염기서열이 생산되었고, 이는 고추 유전체 크기의 6배 이상이다. 표준 유전체에 교배양친의 염기서열을 각각 정렬한 결과, 약 80% 가량이 제 위치에 정렬되어 자리 잡았다. 교배집단 120 개체의 생산된 염기서열 양은 평균 2 Gb로 고추 유전체 크기의 1배 정도이다. 120 개체의 염기서열을 각각 표준 유전체에 정렬한 결과, 약 80% 이상의 염기서열이 정렬되었다.

2. 교배양친 간 SNP 선발 및 120개 자손과의 SNP 매트릭스 작성

교배양친 및 자손 120 개체 염기서열을 표준 유전체로 정렬한 후, 표준 유전체 대비 genome-wide SNP를 추출하였다. 부친과 모친은 각각 약 3백만 여개 이상의 SNP가 추출되었다. 본 분석에서 필요한 SNP는 교배양친 간 차이를 보이는 SNP이므로, 이를 확인한 결과 약 1백 7십만 여개의 SNP를 확보하였다.

교배양친과 자손 120 개체의 SNP 매트릭스(matrix)를 작성하여, 약 77만 여개의 SNP 위치를 확보하였고, 각 SNP 위치마다 부모의 유전형외의 SNP인 경우는 제외하고, 부모의 유전형과 비교하여 모친형 SNP는 a 문자 및 빨간색으로 채워 넣고, 부친형 SNP는 b 문자 및 파란색으로 채워 넣고, 알 수 없는 위치는 n 문자 및 노란색으로 채워 넣은 유전형 매트릭스(genotyping matrix)를 작성하였다. 도 1은 유전형 매트릭스를 도식화하여 나타낸 것으로 자손 120 개체의 2번 염색체를 예시로 나타낸 것이다. 제일 왼쪽은 고추 2번 염색체의 모형이며, 그 오른쪽 영역은 120 개체의 2번 염색체 모형을 세운 것이며, 상단에는 각 개체의 이름을 나타내었다. 각 개체의 염색체 모형에서 붉은색은 모본 유래, 파란색은 부본 유래의 염색체 조각을 나타내 각 개체의 염색체 구성 및 교차 지점을 확인할 수 있으며, 염색체의 중앙 부분 보다 양 끝 부분에서 교차가 더 빈번히 일어남을 확인할 수 있었다.

3. 유전형 매트릭스 이용 염색체 교차 횟수 조사

분자마커를 이용하여 회복친의 염색체 구성을 효율적으로 조사하기 위해서는 염색체를 적절히 구획하여 조사하는 것이 중요하다. 고추 교배양친과 자손 120 개체의 유전형 매트릭스(genotyping matrix)를 이용하여 각 개체의 각 염색체에서 몇 번의 교차가 일어났는지 조사하였다(표 1). 하기 표 1에서 가로 방향은 자손 한 개체가 12개의 각 염색체에서 몇 번의 교차가 일어나는지 확인할 수 있으며, 세로 방향은 한 염색체에서 120 개체가 각각 몇 번의 교차가 일어나는지 확인할 수 있다. 각 개체마다 12개 염색체의 교차 횟수를 평균내면 약 1.9에서 11.4까지 범위를 가지는데, 몇 개체를 제외하고는 평균 교차 횟수가 5 내외임을 확인하였다. 120 개체의 각 염색체 당 교차 횟수를 평균 내면 약 1.7에서 6.9까지의 범위를 가지는데, 이는 염색체의 물리적인 길이 또는 염색체 별 나타나는 교차 특징에 의거한 것으로 판단된다. 이와 같은 조사 결과를 통하여 고추의 경우, 각 개체당, 각 염색체 당 염색체 교차 횟수는 평균 3.8임을 도출할 수 있었다. 본 실시예의 결과를 통하여 작물의 여교잡 육종의 효율성을 증진시키기 위한 마커 선발 구획 개수를 5개로 결정하여 3.8 보다 조금 더 자세하게 조사할 수 있도록 적용하였다. 이에 따라 각 염색체를 5개의 물리적인 구획으로 나누고, 각 구획에서 MAB용 분자마커를 선발하는 것이 적절하다고 판단하였다.

표 1. 고추 RIL 교배집단 자손 120 개체의 12개 염색체 평균 교차 횟수

[ 실시예 2] 토마토 염색체 재조합 비율 조사를 통한 MAB 용 염색체 구획 결정 및 분자마커 선발

재료 및 방법

1. 토마토 NGS 염기서열 수집

가지과 작물에 속하는 토마토의 염기서열은 공개 데이터베이스인 NCBI의 SRA(Short Read Archive database; http://www.ncbi.nlm.nih.gov/sra/)에서 7품종의 차세대 시퀀싱(NGS)을 통해 생산된 7 계통의 전사체(transcriptome) 염기서열을 수집하였다. 표준 유전체로 사용하기 위한 토마토 Solanum lycopersicum Heinz 1706(ITAG 버전 2.3)은 SGN(ftp://ftp.solgenomics.net/)에서 수집하였다. 표준 유전체는 12개 염색체와 12개 염색체 중 어느 하나의 염색체로 자리 잡지 못한 스캐폴드(scaffold) 염기서열들을 묶은 1개의 기타 그룹으로 구성된 약 745 Mb 길이의 총 13개 그룹으로 구성된다.

2. 수집한 염기서열의 가공

수집한 토마토 7 계통의 염기서열의 품질(quality)을 측정하고, 기준 품질 이상의 염기서열 만을 선발(filtering)하는 가공 작업을 공개된 프로그램인 SolexaQA package(v. 1.13; Cox et al., 2010, BMC Bioinformatics, 11:485)를 이용하여 수행하였다. 품질 측정의 기준 값은 프레드 스코어(phred score) 20으로 적용하여, 염기서열을 이루는 염기(base) 하나의 품질 값이 20보다 낮은 것은 버린 후, 남은 염기서열 중 길이가 25 bp 이상인 염기서열만 얻는 작업을 수행하였다.

3. 전처리 염기서열의 표준유전체로의 정렬

수집한 토마토 염기서열들은 전사체 형태이므로 유전자 스플라이싱 부위(gene splicing junction)를 고려한 공개된 정렬(alignment) 프로그램인 TopHat(v1.4.1; Trapnell et al ., 2008, Bioinformatics, 25:1105-1111)을 이용하여 토마토 표준 유전체 염기서열로 정렬을 수행하였다. 정렬 옵션으로는 최소 인트론 길이(Minimum intron size)를 40으로, 최대 인트론 길이(maximum intron size)를 23000으로, 염기(base) 불일치(mismatches) 개수를 1로 적용하였다. 토마토 7 계통의 전사체 데이터 중 S. pimpinellifolium PI212816 계통은 2개의 파일로, S. lycopersicum M82 계통은 3개의 파일로 나뉘어져 있어 표준 유전체 염기서열에 각 파일을 정렬한 후에, 각 계통의 염기서열 정렬 결과를 1개로 통합하여 SNP 분석을 진행하였다.

4. Genome - wide SNP 추출

토마토 각 계통의 염기서열 정렬 결과는 공개된 프로그램인 SAMtools(v0.1.16; Li et al ., 2009, Bioinformatics. 25:2078-2079)를 이용하여 표준 유전체와 비교한 후 SNP를 추출하였다. SAMtools 프로그램 사용 옵션은 대부분 기본 값(default)으로 적용하였고, 정확도 높은 SNP를 선발하기 위해 정렬 품질(alignment quality) 값을 기본 값인 25보다 높은 30으로 적용하고, 적어도 3개 이상의 원 서열(raw reads; 염기서열을 구성하는 짧은 단편서열)이 정렬된 위치에서 추출된 SNP 만을 선발하였다.

5. 교배 조합별 이용 가능한 SNP 분자마커 데이터베이스화

확보된 SNP는 표준유전체와 비교하여 얻어졌으므로 비교대상이 바뀌면 SNP로 활용할 수 없는 경우가 발생한다. 따라서 분석을 실시한 토마토 7 계통 간의 교배 가능한 21개 조합을 도출하고, 교배조합별로 이용 가능한 SNP를 선발하였다. 또한 MAB 유전형분석(genotyping)을 위하여 표준유전체 정보를 이용해 SNP 검출용 프라이머(primer)를 디자인하였고, 프라이머 제작에는 Primer3(v2.3.5; http://primer3.sourceforge.net/releases.php) 프로그램을 이용하였다. 프라이머 제작 조건으로 프라이머 길이는 18~22 bp, 증폭 산물 크기는 180~220 bp, TM(Temperature of melting) 값은 55~65로 설정하였다. 이 후, 프라이머 제작 조건을 만족하는 경우의 SNP 만을 선별하여 데이터베이스화 하였다. 이렇게 교배조합별로 이용 가능한 모든 SNP는 표준유전체의 위치 정보를 데이터베이스에 포함시켜 위치에 따라 선발이 가능하도록 하였다.

6. 염색체 부위별 교차율 조사 및 염색체 분획

앞서 수행한 실시예 1을 통하여 효율적인 여교잡 육종을 위한 MAB용 분자마커를 선발할 때, 단순 물리적인 거리(physical distance)를 반영한 염색체의 분획 수를 결정하였다. 토마토를 대상으로 한 본 실시예 2에도 실시예 1 결과를 토대로 염색체 당 평균 교차 횟수를 적용하여 각 염색체를 분획하였고, 각 구획 안에서 MAB용 분자마커를 선발하였다. 이때 사용한 분자마커는 토마토 7 계통의 교배 조합별로 프라이머가 이용 가능한 SNP 데이터베이스에서 이용하였다.

실시예 1의 결과에서 염색체 내에서 일정한 거리를 두고 교차가 일어나지 않음에 착안하여, 이에 대한 확실한 근거를 얻기 위하여 토마토 교배조합을 이용해 물리적 거리와 유전적 거리(genetic distance; cM)의 상관관계를 분석하였다(도 2). 토마토의 유전자 재조합 비율을 측정하기 위해서 S. lycopersicum LA925 품종과 S. pennellii LA716 타입 F2.2000 품종의 교배를 통해 작성된 Tomato-EXPEN 2000 지도를 이용하였고, 분자마커 2,604개를 SGN(ftp://ftp.solgenomics.net/maps_and_markers/Markers/curr/Tomato-EXPEN-2000.fasta)에서 수집하였다(Shirasawa et al ., 2010, DNA Research. 17:381-391). 수집된 2,604개 마커를 공개 염기서열 정렬 프로그램인 BLAST를 이용하여 토마토 표준 유전체 염기서열(ITAG v2.3, ftp://ftp.solgenomics.net/tomato_genome/annotation/ITAG2.3_release/)에 정렬하였고, 실제로 정렬된 1,924개 마커를 이용하여 재조합 비율을 측정하였다. 분석한 재조합 비율을 적용하여 토마토 12개의 각 염색체를 분획하였고, 각 구획 안에서 이용 가능한 마커를 선발하였다. 각 영역에서 선발되는 마커는 토마토 7 계통의 교배 조합별로 프라이머가 이용 가능한 SNP를 이용하였다.

7. 교배조합별 MAB 용 분자마커 선발

토마토 염색체를 단순 물리적 거리를 반영하여 염색체를 분획하고, 분자마커를 할당한 프로그램(도 3)과 유전적 거리를 반영하여 염색체를 분획하고, 분자마커를 할당 및 선발하는 프로그램을 개발하였다(도 4). MAB 분자마커 선발 프로그램은 웹 기반으로 작성되었고, 확인하고자 하는 교배 조합을 선택하는 선택창을 제공하여 선택된 교배 조합에 따라 자동으로 이용 가능한 SNP의 염색체 별 분포를 그래픽화하였다. 프로그램 하단의 표에는 선택한 교배조합 간에 이용 가능한 SNP 마커와 마커 확인을 위해 제작된 프라이머 쌍에 대한 정보로 구성하여 제공하였다.

분석결과

1. 토마토 NGS 데이터의 genome - wide SNP 분석

NCBI-SRA로부터 수집된 토마토 7 계통의 전사체 데이터를 이용하여 SNP를 선발한 결과는 하기 표 2에 나타내었다. 표에는 데이터 종류(library), SRA 등록번호(accession), 미가공 서열(raw reads) 수, 표준 유전체로 정렬된 서열(mapped reads) 개수 및 추출된 총 SNP 수를 기재하였다. 분석한 토마토 계통 중 S. pimpinellifolium PI212816에서 가장 많은 66,410개의 SNP가 추출되었는데, 이는 토마토 표준 유전체와 근연 관계가 멀고 분석에 사용된 서열 데이터의 양이 7 계통 중 가장 많기 때문인 것으로 판단된다. 또한, 표준 유전체와 동일한 종인 6개의 S. lycopersicum 전사체의 SNP는 80개부터 17,868개까지 추출되었다. 추출된 SNP의 개수에 많은 차이를 보였는데, 이는 계통에 따른 표준 유전체와 염기서열 유사 정도에 따라 나타난 다형성(polymorphism)의 차이로 보인다. 가장 적은 80개 SNP가 추출된 M82 계통은 분석에 사용된 염기서열의 양이 약 105 Mb로, 다른 계통의 0.05~0.1%에 해당하는 매우 적은 양이었다. 이 요인 또한 가장 적은 SNP가 추출된 것에 영향을 준 것으로 예측된다.

표 2. 토마토 7 계통 염기서열의 SNP 선발 결과

2. 교배 조합별 이용 가능한 SNP 분자마커 데이터베이스 구축

토마토 7 계통의 SNP를 이용하여 교배 조합별로 이용 가능한 SNP를 선발하였다. 가능한 교배 조합은 총 21개이고, 총 425,935개의 SNP가 선발되었다. 교배 조합별로 이용 가능한 SNP 개수는 다양하였는데, PI212816×T5 조합은 가장 많은 63,001 SNP가 선발되었고, 그 중 프라이머를 이용할 수 있는 SNP는 42,689개이었다. 반면, M82×NC84173 조합은 가장 적은 151개의 SNP가 선발되었으며, 이용 가능한 프라이머가 존재하는 SNP로 선발하면 M82×FL7600 조합이 가장 적은 42개의 SNP가 존재하였다. M82 계통의 경우 염기서열의 양 부족으로 인해 전체적으로 적은 SNP가 추출되었다. 적용 가능한 21개 조합의 SNP를 선발한 후, 프라이머 제작 조건을 만족하는 경우의 SNP만을 데이터베이스화한 결과, 프라이머를 이용할 수 있는 SNP는 357,785개가 선발되었다. 또한 이용 가능한 모든 SNP는 표준 유전체의 위치 정보를 데이터베이스에 포함시켜 위치에 따라 선발 가능하도록 하였다.

하기 표 3은 토마토 7 계통 간에 교배 조합별로 선발된 SNP 마커 개수를 나타낸다. 오른쪽 상단 영역은 선발된 총 SNP 마커 개수이며, 왼쪽 하단의 영역은 그 중 이용 가능한 프라이머가 제작된 SNP 마커 개수를 나타낸다.

표 3. 교배 조합별로 이용 가능한 SNP 분자마커 개수

3. 유전적 거리에 따른 염색체 부위별 교차율 조사 및 염색체 분획

실시예 1에서 고추 120 RIL 개체의 교차 횟수 분석을 통해, 한 염색체당 평균적으로 3.8번의 교차가 일어남을 확인하였다(표 1). 이 분석 결과를 적용하여, 마커 선발 구획 개수를 3.8 보다 조금 더 자세하게 조사할 수 있도록 5개로 결정하여 같은 가지과 작물에 속하는 토마토의 각 염색체를 5개의 동일한 크기의 구획으로 나누었다. 12개 염색체 중 가장 긴 1번 염색체(약 90 Mb)는 5등분하여 한 영역 당 약 18 Mb 길이로 나뉘었고, 가장 짧은 6번 염색체(약 46 Mb)는 약 9 Mb 길이로 나뉘었다. 단순 물리적 거리를 적용하여 염색체를 분획한 후, 토마토 7 계통의 교배 조합별로 프라이머가 이용 가능한 SNP를 이용하여 한 구획 당 3개의 SNP를 할당하였다.

더불어 실시예 1의 분석 결과를 통해 염색체 내 위치에 따라 유전자 재조합 빈도에 차이가 있음을 확인하여 Tomato-EXPEN 2000 지도의 1,924개 분자마커를 이용해 염색체 내 물리적 거리와 유전적 거리를 비교하였다(도 2). 12개 염색체에서 전반적으로, 동원체(centromere)를 포함하는 이질염색질(heterochromatin) 부위는 물리적 거리에 비해 유전적 거리가 짧아서 재조합 빈도가 낮은 것으로 나타난 반면, 염색체의 양 말단은 물리적 거리의 변화와 유전적 거리 변화가 거의 일치하는 것으로 나타났다. 예외적으로 토마토의 2번 염색체는 짧은 팔(short arm) 부분에 NOR(Nuclear Organizer Region)를 가지고 있어 재조합 빈도가 낮아 이질염색질 부위와 동일한 경향을 나타냈다.

토마토 염색체의 분획은 물리적 거리(physical distance)를 반영한 경우와 유전적 거리(genetic distance; cM)를 고려한 경우 2가지로 접근했다. 먼저 각 염색체의 물리적 길이로 구획을 나눈 경우는 염색체 당 5개의 동일한 크기의 구획으로 나누었다. 12개 염색체 중 가장 긴 1번 염색체(약 90 Mb)는 5등분하여 18 Mb 길이의 구획으로 나누었고, 가장 짧은 6번 염색체(약 46 Mb)는 9 Mb 길이로 분획하였다. 그리고 토마토 전사체 7종의 교배 조합별로 프라이머가 이용 가능한 SNP를 이용하여 한 구획 당 3개의 SNP를 선발하여 제공하였고, 사용자는 1개 이상의 마커를 사용할 수 있다.

상기 2가지 분석 결과를 통해 염색체의 위치에 따라 유전자 재조합 빈도에 상당한 차이가 발생하는 것을 확인하였다. 이에 따라 재조합이 자주 일어나는 영역은 그렇지 않은 영역보다 더 많은 마커를 사용해 해당 부위의 염색체 조성을 자세히 조사하고, 교차가 적게 일어나는 영역은 분자마커 수를 줄여 전체 분자마커 사용 개수를 최소화 하고자 하였다. 따라서 사용하는 마커 수를 최소화하면서 효율적인 여교잡 선발을 위해 유전적 거리를 고려하여 토마토 염색체의 구획을 차등적으로 나누었다. 즉 염색체 상에서 재조합이 비교적 적게 일어나는 영역인 염색체 중앙 부분은 구획을 넓게 나누었고, 재조합이 비교적 자주 일어나는 영역인 염색체의 양끝 말단 부분은 마커 선발 구획 또한 세분화하여 자세히 조사하도록 하였다. 결과적으로 토마토의 각 염색체를 15등분하되 재조합 비율을 적용하여 염색체의 구획의 크기를 차등화하였고, 한 구획 당 1개의 SNP 마커를 할당하여 나타내었다. 각 염색체 당 총 15개의 충분한 수의 마커가 제공되며, 사용자는 5개 내외의 마커를 선택해 사용할 수 있다.

4. 교배조합별 MAB 용 분자마커 선발

작물의 여교잡 육종의 효율성 증진 및 MAB 분자마커의 활용성을 높이기 위하여 교배 조합별로 이용할 수 있는 분자마커를 염색체 상에 그래픽으로 표현하여 웹 기반의 MAB용 분자마커 선발 프로그램을 개발하였다. 이 프로그램은 적용하고자 하는 교배 조합을 선택하면 저장된 데이터베이스에서 이용 가능한 SNP를 자동으로 선발하여 해당 SNP 마커 위치를 염색체 위에 표현한다.

그 예로 토마토 S. lycopersicum FL7600과 S. pimpinellifolium PI212816 간에 선발된 프라이머 제작이 가능한 MAB 마커는 40,634개이며, 프로그램을 새로 고침 할 때마다 40,634개의 SNP 마커 데이터베이스에서 자동으로 새로운 마커 세트들이 선발되어 12개 염색체 위에 표현된다.

이때 물리적 거리를 반영한 MAB 마커 선발 프로그램에는 각 염색체가 5개의 동등한 크기로 나뉘어져 있으며, 한 구획 당 표현되는 마커 개수는 3개의 SNP이므로 12개 염색체에는 총 180개의 마커가 표현된다(도 3). 각 SNP를 확인할 수 있는 프라이머에 대한 자세한 정보를 추가로 제공하도록 구성하였다. 염색체 부위에 따라 교차 비율이 다르게 나타나는 점을 고려하여 유전적 거리를 반영한 MAB 마커 선발 프로그램 역시 개발하였다(도 4). 각 염색체를 15 등분하되 재조합 비율을 적용하여 염색체의 구획의 크기를 차등화하였고, 한 구획 당 1개의 SNP 마커를 할당하여 나타내었다. 한 염색체 당 15개의 마커가 표현되며, 따라서 12개 염색체에는 총 180개의 마커가 표현된다.

이러한 MAB용 SNP 분자마커를 선발하여 제공하는 기술 및 프로그램은 유용 유전자원의 발굴 및 작물 개선 등 실제적인 육종 현장으로 적용을 가능케 하여 분자마커의 활용을 높이고, 육종효율을 증진시킬 것이다.

Claims

a) 차세대 시퀀싱(next generation sequencing, NGS)을 통해 마커를 개발하고자 하는 개체 및 개체와 교배 가능한 품종의 유전체(genome) 또는 전사체(transcriptome) 염기서열을 생산하거나 공개 데이터베이스에서 염기서열을 수집하는 단계;
b) 상기 a) 단계의 염기서열의 품질(quality)을 측정하고, 기준 값 이상 품질의 서열로 선별(filtering)하는 단계;
c) 상기 b) 단계의 선별된 염기서열을 개체의 표준 유전체(reference genome)의 염기서열에 대해 정렬(alignment)한 후, 표준 유전체와 대비되는 분자마커를 추출하는 단계;
d) 상기 c) 단계에서 추출된 개체들의 전체 분자마커 중 교배가 가능한 품종 간 분자마커를 비교하여 교배 조합별로 차이를 나타내는 분자마커 또는 교배양친 간 차이를 보이는 분자마커를 선발하는 단계;
e) 상기 d) 단계에서 선발된 분자마커의 위치에 해당하는 교배조합들 또는 개체들의 분자마커를 대상으로 매트릭스(matrix) 형태로 만드는 단계;
f) 상기 e) 단계의 분자마커 매트릭스로부터 분자마커를 검출할 수 있는 프라이머(primer) 세트를 디자인하고, 상기 프라이머를 이용할 수 있는 분자마커만을 선발하여 MAB(Marker-assisted backcrossing)용 분자마커 데이터베이스를 구축하는 단계;
g) 상기 f) 단계의 분자마커 데이터베이스를 이용하여 MAB 분자마커를 선발하고자 하는 개체의 교배시 예측되는 염색체 교차 빈도 및 비율을 측정하는 단계;
h) 상기 g) 단계의 염색체 교차 평균 빈도 수에 따라 개체의 염색체를 동일 크기의 구획으로 나누는 물리적 거리(physical distance) 기준 또는 평균 염색체 교차 비율에 따라 차등 구획을 적용하여 유전적 거리(genetic distance)를 기준으로 개체의 염색체를 분획하는 단계; 및
i) 상기 g) 단계 및 h) 단계의 결과에 따라, 실시하고자 하는 교배조합 변경에 의해 염색체 구획별 분자마커를 선발하는 단계를 포함하는 여교잡 선발의 효율성이 증진된 염색체 구획화 및 MAB용 분자마커 선발 방법.
제1항에 있어서, 상기 c) 단계 내지 g) 단계 중 어느 한 단계의 분자마커는 SNP(Single Nucleotide Polymorphism), SSR(Simple Sequence Repeat) 또는 In/Del(Insertion/Deletion) 마커인 것을 특징으로 하는 염색체 구획화 및 MAB용 분자마커 선발 방법.
제1항에 있어서, 상기 b) 단계의 서열 품질은 FASTX-Toolkit, FastQC 또는 SolexaQA 패키지로 측정하는 것을 특징으로 하는 염색체 구획화 및 MAB용 분자마커 선발 방법.
제3항에 있어서, 상기 서열 품질의 기준 값은 프레드 스코어(phred score) 20 이상, 길이 25 bp 이상인 것을 특징으로 하는 염색체 구획화 및 MAB용 분자마커 선발 방법.
제1항에 있어서, 상기 c) 단계의 정렬은 BWA(Burrows-Wheeler Aligner) 또는 TopHat을 이용하여 수행하는 것을 특징으로 하는 염색체 구획화 및 MAB용 분자마커 선발 방법.
제1항에 있어서, 상기 c) 단계의 분자마커 추출은 SAMtools 프로그램을 이용하여 수행하는 것을 특징으로 하는 염색체 구획화 및 MAB용 분자마커 선발 방법.
제1항에 있어서, 상기 f) 단계의 MAB용 데이터베이스는 분자마커의 염색체 내 위치 정보를 포함하는 것을 특징으로 하는 염색체 구획화 및 MAB용 분자마커 선발 방법.
제1항 내지 제7항 중 어느 한 항의 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램을 기록한 기록매체.