KR102320966B1 - 차세대염기서열분석법을 이용한 초위성체 마커 탐색 접근법 - Google Patents

차세대염기서열분석법을 이용한 초위성체 마커 탐색 접근법 Download PDF

Info

Publication number
KR102320966B1
KR102320966B1 KR1020210019891A KR20210019891A KR102320966B1 KR 102320966 B1 KR102320966 B1 KR 102320966B1 KR 1020210019891 A KR1020210019891 A KR 1020210019891A KR 20210019891 A KR20210019891 A KR 20210019891A KR 102320966 B1 KR102320966 B1 KR 102320966B1
Authority
KR
South Korea
Prior art keywords
group
sample
dna
seq
sequence
Prior art date
Application number
KR1020210019891A
Other languages
English (en)
Inventor
이우규
김민경
최유래
조수열
강주혜
이철현
김종환
강태욱
김진호
김무상
정의석
최아경
Original Assignee
대한민국(식품의약품안전처장)
(주)더모아젠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 대한민국(식품의약품안전처장), (주)더모아젠 filed Critical 대한민국(식품의약품안전처장)
Priority to KR1020210019891A priority Critical patent/KR102320966B1/ko
Application granted granted Critical
Publication of KR102320966B1 publication Critical patent/KR102320966B1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Abstract

본 발명은 유전자 마커 탐색 방법에 관한 것으로, 참조 서열이 확립되지 않은 종에 대해서, 풀링 샘플의 DNA를 NGS로 분석하고, 풀링 샘플의 한 그룹의 개체들이 다른 그룹의 개체들에 비해서 특이적으로 공유하고 있는 유전적 다형성을 나타내는 염기 서열을 선발하며, 선발된 염기 서열을 각 그룹을 구별할 수 있는 유전자 마커로 사용할 수 있다.

Description

차세대염기서열분석법을 이용한 초위성체 마커 탐색 접근법{Approach for microsatellite marker detection using NGS}
본 발명은 유전자 마커를 탐색하는 방법에 관한 것이다.
생물학 분야에서는 차세대 염기서열 기법(next generation sequencing, NGS)을 이용한 연구가 활발하게 진행되고 있으며, 여러 영역에서 다양하게 응용되고 있다. 기존의 바이오 소재를 집적하여 만든 마이크로어레이 기법은 칩 기반의 바이오 마커 발굴, 바이오 센서, 진단 등 광범위하게 응용되지만, 칩에 포함된 표지에 한하여 확인이 가능하였다. 이에 비해서, NGS는 DNA 가닥을 하나씩 분석하는 방식으로 기존의 직접 염기 서열 분석법에 비해 빠른 속도로 염기 서열 분석이 가능하며, 작은 영역의 이벤트 검출, 변이의 브레이크 포인트를 정확히 예측하는 작업 등, 새로운 변이를 찾는데 이용된다.
NGS는 하기의 단계로 수행된다. DNA를 일정한 단편으로 분절화시키고 장비가 인식할 수 있는 특정 염기서열을 가진 올리고뉴클레오티드, 즉 어댑터를 붙여주는 라이브러리 제작 단계, 각 라이브러리 DNA 가닥의 염기 서열을 장비로 읽는 단계, 및 장비에서 생성된 데이터를 가공하여 알고리즘으로 분석하는 단계로 이루어진다.
초위성체(microsatellite)는 미세부수체라고도 불리며 1~6 bp 이상 길이의 동일한 내용으로 반복된 DNA 모티프(motif)로써 단순 염기서열 길이 다형성(simple sequence length polymorphism, SSLP)을 나타낸다. 주로 염색체의 텔로미어 부근에 위치하는 미소부수체(minisatellite)와 달리 염색체 전 구간에 고르게 퍼져있어 DNA 표지자로써 유전자 감식을 통한 친자 확인, 법의학(검증, 감별), 농수산물(원산지, 종감별 등), 식품(병원균 감별 등), 약재 감별 등 여러 분야에서 널리 사용되고 있다. 일반적으로 5~50번까지 모티프가 반복되는 양상을 보이고, DNA 복제시 슬립(slippage) 과정에서 반복수의 차이가 생긴다.
초위성체 역시 NGS를 활용하여 발굴되고 있다. 예를 들면, 초위성체를 포함하는 서열을 증폭시키고, 증폭된 NGS 산물을 분석하게 된다. 분석된 데이터는 참조 서열과 정렬하는 단계(reference alignment)를 거치게 된다. 그 예로써, 특허문헌 1에 NGS를 이용하여 한우와 홀스테인의 전유전체를 비교하여 구조적 변이를 발견하는 기술이 개시되어 있다. 유전체가 이미 밝혀진 종의 경우 위 특허문헌 1에 개시된 기술을 이용할 수 있지만, 참조 서열이 확립되어 있지 않은 종에 대해서는 마커를 탐색하기 위해서는 다른 방법이 적용된다. 예를 들면, 참조할 수 있는 유전체 서열이 없는 종에 대해서는 염기 서열 어셈블리(assembly) 작업을 통해 컨티그(contig) 이상의 참조 서열을 제작한 후, 이 참조 서열과 초위성체의 존재 여부를 탐색하고자 하는 샘플의 NGS 데이터를 비교하여 분석함으로써 초위성체를 발굴하였다. 그러나, 유전체 어셈블리 과정에서 에러가 많고, 시간이 많이 소요되지만 이에 대해 아직까지도 획기적인 해결 방안이 없는 실정이다.
본 발명자는 참조 서열이 확립되지 않은 생물에 대해서 유전자 마커를 탐색하는 경우, 필수적으로 수행되어야 하는 어셈블리 과정에서 에러가 다수 발생하는 점을 개선하기 위한 방법을 연구하였다. 대량의 풀링(pooling) 샘플에 NGS 기법을 적용하고, 개체간 동일 좌위를 기준으로 유전적 차이를 확인하여, 참조할 수 있는 유전체가 확립되지 않은 생물에 대해, 유전체 어셈블리 작업 없이도 마커를 탐색할 수 있는 것을 확인함으로써 본 발명을 완성하였다.
대한민국 등록특허공보 제2012596호
본 발명의 과제는 종래에 유전자 마커를 발굴하기 위해서 필수 조건이었던 참조 서열 제작 과정이 없이도 유전자 마커를 탐색할 수 있는 방법을 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위해서, 유전자 마커 탐색 방법을 제공한다: 샘플별로 DNA를 추출하고 바코딩 및 풀링(pooling)하여, 라이브러리를 제작하는 단계; 제작된 라이브러리에 대해 차세대 염기서열분석(next generation sequencing, NGS)을 적용하여 데이터를 얻는 단계; 풀링 샘플의 한 그룹의 개체들이 다른 그룹의 개체들에 비해서 특이적으로 공유하고 있는 유전적 다형성을 나타내는 염기 서열을 선발하는 단계; 및 선발된 유전적 다형성을 나타내는 염기 서열이 풀링 샘플 내의 그룹을 구분하는 유전자 마커로 작용하는지 검증하는 단계.
본 발명은 NGS 기법을 이용하여 대량의 바코드 풀링(pooling) 샘플로부터 참조 서열 없이도 다형성을 나타내는 초위성체의 탐색이 가능하므로 실험 비용과 분석 시간을 절감할 수 있다. 또한, 참조 서열을 어셈블리하는 단계를 제외하여, 에러율을 낮춤으로써 참조 유전체가 없는 생물 종에 대해서도 효율적이고 정확하게 초위성체 마커를 확보할 수 있다.
도 1은 왕지네의 그룹간 PCA 결과를 나타낸다: "유통품"은 중국 유통품을 나타낸다.
도 2는 왕지네의 그룹간 상관성 히트맵 결과를 나타낸다: kor; 한국, julkang; 중국 절강성, hobuk; 중국 호북성, laos; 라오스, trade; 중국 유통품, indonesia; 인도네시아.
도 3은 왕지네의 기원종 감별용 마커의 성능을 검증한 결과를 나타낸다.
이하, 본 발명을 보다 상세하게 설명한다.
본 발명은 참조 서열(refernence genome sequence)이나 염기 서열 어셈블리 작업 없이 풀링 샘플에서 유래한 DNA만으로 유전자 마커를 탐색하는 것을 특징으로 하는 유전자 마커 탐색 방법을 제공한다. 본 발명의 각 단계는 다음과 같다.
(1) 샘플별로 DNA를 추출하고 바코딩 및 풀링(pooling)하여, 라이브러리를 제작하는 단계;
(2) 제작된 라이브러리에 대해 차세대 염기서열분석(next generation sequencing, NGS)을 적용하여 데이터를 얻어, 풀링 샘플 내에서 동일한 인접 서열을 가지는 리드(reads)를 선별하고, 선별된 동일한 인접 서열을 가지는 각 리드 내의 초위성체(micrsatellite)의 모티프 및 반복수를 통해 유전적 다형성을 확인하는 단계;
(3) 풀링 샘플 내 한 그룹의 개체들이 다른 그룹의 개체들에 비해서 특이적으로 공유하고 있는 유전적 다형성을 나타내는 염기 서열을 유전자 마커로 선발하는 단계; 및
(4) 선발된 유전자 마커에 의해 상기 풀링 샘플 내의 그룹이 구분되는지 검증하는 단계.
풀링 방식은 샘플별로 라이브러리를 제작하여 진행하는 방식과 달리 다수의 개체를 동시에 처리하므로 라이브러리 구축 과정에서 시간과 비용을 절감할 수 있는 효과가 있다. 풀링 방식은 큰 규모의 연관 분석에서 사용되어 왔는데, 특정 그룹간 비교를 위한 목적의 연구에서는 풀링 샘플 내에서 개별 샘플의 프로파일링이 혼재되는 성향이 있었다. 하지만, 본 발명과 같이 바코드를 이용하면 개체를 구분할 수 있으므로 개체간 공유하는 다형성을 확인하는 목적에서는 풀링 방식을 주로 활용하며, 개체별로 생산된 시퀀싱 데이터도 사용가능하다.
상기 풀링 샘플은 하나의 생물종으로 이루어질 수 있다. 풀링 샘플을 하나의 생물종을 대상으로 할 경우, 한 종 내에서 개체간 유전적 차이를 확인할 수 있으며, 이 유전적 차이를 유전자 마커로 사용할 수 있다. 본 발명의 방법은 특정 생물종에 한정되어 적용되는 것이 아니며, 생물종과 관계없이 유전적 다형성을 발굴하는데 사용될 수 있다. 상기 풀링 샘플 준비시, 샘플은 생물학적 시료를 대상으로 하며, 게놈 DNA를 포함하는 부위라면 모두 사용될 수 있다.
상기 풀링 샘플의 샘플수는 많을수록 여러 가지 다형성을 확인할 수 있고, 예외 상황으로 인한 위음성을 방지할 수 있으며, 통계적으로도 유의미한 결과를 얻을 수 있다. 즉, 샘플이 많을수록 그룹 내 다양한 변이의 패턴을 확인 가능하며, 그룹/개체간 비교시 정확한 결과(마커)를 제시할 수 있다. 샘플수가 적을 경우, 풀링 샘플 내에서 총 집단이 공유하는 영역을 찾기 어렵고, 이에 따라 상기 공유하는 영역 내에서 각 그룹에서만 특이적으로 공유하고 있는 영역을 선발하기 어렵다.
상기 NGS는 일루미나(Illumina), 써모피셔사이언티픽(Thermo Fisher Scientific), 퍼시픽바이오사이언스(Pacific Biosciences), 옥스포드나노포어(Oxford Nanopore Technologies)에서 제조된 장비를 사용하여 수행될 수 있고, 구체적으로 일루미나사의 플랫폼 중 정확도가 높고 NGS 플랫폼(short read)에서 상대적으로 길게 시퀀싱이 가능한 miseq ver.3를 사용하여 시퀀싱을 수행할 수 있다.
본 발명은 일련의 산술 또는 논리 연산을 수행하도록 설계된 프로그램 가능한 기계를 이용하여 수행될 수 있다. 예를 들어, 본 발명의 일부 기술은 컴퓨터 소프트웨어 및/또는 컴퓨터 하드웨어에서 구현된다. 본 발명의 일 측면은 메모리 형태, 산술 및 논리 연산을 수행하기 위한 요소, 및 일련의 지시를 실행하기 위한 프로세싱 요소를 포함하여 데이터를 판독, 조작 및 저장하는 컴퓨터에 관한 것이다. 일반적으로, 본 발명과 관련된 컴퓨터는 본 기술에서 사용되는 하나 이상의 프로그램을 서포트할 수 있는, Linux, UNIX, Mac OS 등과 같은 임의의 운영 시스템에서 작동하는 임의의 유형의 프로세서-기반의 플랫폼일 수 있다.
본 발명의 한 실시예에서, 컴퓨터는 NGS를 적용하고, 동일한 인접 서열을 가지는 리드를 선별하며, 선별된 각 리드 내의 초위성체의 모티프 및 반복수를 확인하고, 선별된 각 리드에 스코어를 부여하고, 스코어에 따라 순위를 정하며, 프라이머 세트를 디자인할 때에 사용될 수 있다.
본 발명이 제공하는 유전자 마커 탐색 방법은 참조 서열(refernence genome sequence) 없이 풀링 샘플에서 유래한 DNA만으로 유전자 마커를 탐색하는 것이다. 상기 풀링 샘플은 다수의 개체 유래의 DNA가 혼재되어 있지만, 개체별로 구분이 가능한 바코드가 각 개체 유래의 DNA에 접합되어 있어 개체 구분이 가능하다. 참조 서열은 표준 전장 유전체라고도 하며, 특정 생물종을 대표하는 염기서열을 말한다. 참조 서열이 확립되어 있는 종의 경우에는 참조 서열에, 새롭게 수집된 샘플의 염기 서열을 정렬하여 맵핑함으로써 유전적 변이를 추출할 수 있다. 하지만, 참조 서열이 확립되어 있지 않은 종의 경우에는 참조 서열을 어셈블리 과정을 통해서 새롭게 만들어야 하고, 이 과정에서 에러가 많이 발생해서 결과값이 정확하지 못하다.
구체적으로, NGS 리드(reads)를 이용한 유전 변이 분석은 기본적으로 어셈블리(assembly)에 기반을 둔다. 염기 서열 어셈블리는 본래의 염기 서열을 알아내기 위해 조각들을 정렬하고 더 긴 DNA 서열로 만드는 것을 의미한다. 이는 DNA 시퀀싱 기술이 한번에 길이가 긴 유전체 전체를 읽을 수 없고, 작은 조각들만 읽을 수 있기 때문이다. 예를 들면, 어셈블리 과정은 리드들의 길이가 길고, 리드들의 겹침(overlap) 영역이 클수록 쉽지만, NGS 기술은 기존의 생어 시퀀싱 기반의 분석 방식보다 리드의 길이가 훨씬 짧고, 어셈블리해야 하는 리드의 총 수가 매우 많으며, 유전체에서 높은 빈도로 발생하는 반복 구간들이 많아져 가짜 겹침(false-positive overlap)들이 생성될 가능성이 매우 높다.
본 발명은 오류가 다수 발생하는 어셈블리 과정이 없이도 개체간 동일 좌위를 확인하여 유전자 마커를 탐색할 수 있는 점이 기술적 특징이다. 본 발명의 유전자 마커 탐색 방법에 따르면 어셈블리하여 참조 서열을 만드는 대신에, 풀링 샘플 내의 개체 간 염기 서열의 공통된 영역을 찾고, 그 영역 내에서 각 그룹의 개체들이 다른 그룹의 개체들에 비해서 특이적으로 공유하는 영역을 유전자 마커로 선발할 수 있다. 즉, 본 발명은 개체들 간의 동일 구간의 서열을 추정하고, 이를 기준삼아 진행하는 방식이다. 이와 같이 본 발명은 어셈블리 과정을 생략함으로써, 어셈블리 과정에서 발생할 수 있는 오류를 최소화할 수 있어 정확하게 유전자 마커를 탐색할 수 있는 효과가 있다. 아울러, 기존에 마커 선발에 사용된 방법인 맵핑 방식과, 드노보 방식은 실험으로 확인하기 어려운 상당히 많은 후보군이 선발되지만, 본 발명의 방법으로는 다형성에 대한 랭킹 기반으로 후보군을 제공하므로 실험으로 확인가능한 적합하고, 유효한 후보군을 얻을 수 있다.
본 발명의 한 실시예에서는, NGS를 이용하여, 참조 서열이 확립되어 있지 않은 종에서 개체간, 그룹간 유전적 차이를 확인할 때, 어셈블리하는 과정없이 가능한 것을 확인하였다. 구체적으로, 왕지네 기원종 그룹과, 위품을 포함하는 그룹으로부터 DNA를 추출하고, 라이브러리를 제작하며, NGS를 적용하였다. NGS 데이터 분석으로 얻어진 서열에서 저품질 서열과 어댑터를 제거하여 순수 DNA를 획득하였다. 이 대량 염기 서열에 대해 리눅스 명령 스크립트와 트리밍(trimming) 프로그램을 이용하여 중복 제거 및 카운팅 작업을 수행하였다. 중복된 서열이 제거된 서열에 대해 미사(MISA) 툴을 이용하여 초위성체 모티프를 탐색하였다. 위 두 그룹에서 한 그룹의 개체들만이 특이적으로 공유하고 있는 초위성체를 확인하였고, 모든 그룹에서 공유하고 있는 초위성체의 경우 각 그룹에서 초위성체의 반복수가 상이한 것을 확인하였다. 본 발명의 방법을 통해서 참조 서열을 제작하는 어셈블리 과정 없이 유전적 차이를 확인할 수 있으므로, 종래의 방법보다 더 정확하게 유전자 마커를 탐색할 수 있는 것을 알 수 있었다. 또한, 참조 서열이 없어도 유전자 마커 탐색이 가능하므로 본 발명의 발명은 다양한 생물종에 대해서 범용으로 사용될 수 있다.
상기 (1)단계(라이브러리를 제작하는 단계)는 샘플에서 추출된 DNA를 NGS 장비에서 분석가능한 크기로 절단시킨 후, 어댑터를 부착하고, 라이브러리를 증폭하는 것이다. 어댑터는 NGS 장비가 인식할 수 있는 고유한 염기서열을 가진 올리고뉴클레오티드이다. 어댑터가 붙은 라이브러리는 NGS 검사를 하기에 양이 부족하므로 PCR 증폭 과정을 거치고 부산물 등을 제거하는 정제 과정을 거칠 수 있다.
상기 유전적 다형성은 초위성체일 수 있다. 다형성은 '대립형질'이라 부르며, 종의 일부 구성원은 본래 서열을 가질 수 있지만(즉, 본래의 '대립형질') 그 밖의 구성원은 변이 서열(즉, 변이 '대립형질')을 가질 수 있다. 다형성을 정의하는 변이의 범위는 단일 뉴클레오티드 변이에서부터 유전자내의 연장된 영역의 삽입 또는 결실까지일 수 있다.
초위성체(microsatellite)는 단순 반복 염기 서열(simple sequence repeat, SSR) 또는 단연쇄 반복(short tandem repeats, STR)라고도 불리는 DNA 다형성의 일종이다. SSR은 일반적으로 중립이고 공우성(co-dominant)이며, 혈통이나 군집에서 표현형과 유전형을 매개할 수 있는 유전학적인 마커로 사용되는 유전체 내의 2-6개의 반복되는 염기서열이다.
상기 (1)단계(라이브러리를 제작하는 단계)에서는 제한 효소를 사용할 수 있다. 상기 제한 효소는 ApekⅠ, pst1 및 msp1로 이루어진 군으로부터 선택되는 어느 하나일 수 있다. 제한 효소는 비교 그룹간 공통 영역을 최대한 많이 확보하기 위해 사용될 수 있다. 예를 들면, 유전체상에서 제한 효소로 잘려진 특정 부분만 추출하여 비교 범위를 제한하게 되면, 각 개체의 전체 DNA 중 제한 효소로 추출된 구간만 비교하게 되므로 비교 그룹간 공통 영역을 최대한 확보할 수 있다. 구체적으로, 제한 효소는 단독으로 또는 병용하여 사용될 수 있고, 단독으로 사용할 경우에는 ApekⅠ을 사용할 수 있으며, 병용하여 사용할 경우에는 pst1 및 msp1을 사용할 수 있다. 또한 조합을 달리 할 수 있다. 위 제한 효소는 한 예로서 제시한 것이며, 생물종에 따라 적합한 제한효소를 사용할 수 있고, 이에 따라 유전자 마커 발굴시에, 개체간 공통 영역을 최대한 확보할 수 있다.
본 발명의 한 실시예에서는, 사용된 제한효소의 개수에 따라 2가지로 라이브러리를 제작하였다. 하나는 ApekⅠ을 사용한 싱글 제한효소(single enzyme) 라이브러리이고, 다른 하나는 2개의 제한효소(pst1 및 msp1)를 이용한 듀얼 제한효소(dual enzyme) 라이브러리이다. 제작된 라이브러리를 NGS 시퀀싱하여 트리밍한 결과, 최소 88.3%부터 최대 100%까지 필터 패싱된 것을 확인하였으며, 시퀀싱된 인덱스 서열을 이용하여 샘플별로 fastq 데이터를 분류하여, 그룹에 따라 차이가 나는 초위성체 다형성을 기반으로 마커 후보군을 얻을 수 있는 것을 알 수 있었다.
상기 (2)단계(유전적 다형성을 확인하는 단계)는 NGS를 적용하여 데이터를 얻는 단계 이후에 풀링 샘플 내에서 동일한 인접 서열을 가지는 리드(reads)를 선별하는 단계가 포함된다. 상기 동일한 인접 서열을 가지는 리드를 탐색하는 단계 이후에는 선별된 동일한 인접 서열을 가지는 각 리드 내의 초위성체의 모티프 및 반복수를 확인하는 단계가 포함된다.
상기 (3)단계(유전적 다형성을 나타내는 염기 서열을 유전자 마커로 선발하는 단계)는 각 리드에 스코어를 부여하고, 상기 스코어 순위에 따라 선발된 마커 후보군내에서 상기 유전자 마커를 선발할 수 있다. 상기 스코어는 0점 또는 1점이고, 1점이 부여된 리드를 유전자 마커 후보군으로 선발하며, 하기의 기준으로 스코어를 부여할 수 있다.
(a) 풀링 샘플 내에서 모든 그룹에 존재하지만 초위성체의 모티프의 반복수가 동일한 리드 : 0점
(b) 풀링 샘플 내에서 한 그룹의 개체들만이 공유하는 인접 서열을 포함하는 리드 : 1점
(c) 풀링 샘플 내에서 모든 그룹이 공유하는 인접 서열을 포함하면서, 리드 내의 초위성체의 모티프가 동일하지만, 모티프의 반복수는 그룹별로 상이한 리드 : 1점
또한, 비교 목적에 따라 추가적인 스코어를 부여하여 값이 클수록 상위 랭크 마커로 제시할 수 있다.
본 발명의 한 실시예에서, 총 2,482개의 왕지네 감별용 유전자 마커 후보군에 대해서, 그룹간에 또는 서브그룹간에 차이를 보이는 초위성체의 다형성을 기반으로 스코어를 주고, 순위를 정하여 상위 13개의 후보를 선발하였다(표 4 참조).
상기 리드 중 (b) 리드는 풀링 샘플 내의 한 그룹과, 다른 그룹을 구별할 때 사용될 수 있고, 상기 리드 중 (c) 리드는 한 그룹 내에서 서브그룹(subgroup)을 구별할 때 사용될 수 있다.
본 발명의 한 실시예에서, 최종 마커 후보군인 서열번호 17의 염기서열; 내지 서열번호 29의 염기서열은 하기와 같이 분류된다. 서열번호 17의 염기서열; 내지 서열번호 21의 염기서열, 서열번호 28의 염기서열, 서열번호 29의 염기서열은 (b) 리드에 해당한다. 아울러, 서열번호 22의 염기서열; 내지 서열번호 27의 염기서열은 (c) 리드에 해당한다.
또한, 빈도분석을 통해 p값이 유의한 순서로 후보 마커에 대해 순위를 정할 수 있다. 하기 마커 1 및 마커 2를 예로 들어 설명한다. 마커 1은 초위성체의 모티프가 GAA이며 10 또는 20 반복수를 갖는 초위성체인 경우이고(표 1), 마커 2는 모티프가 TCGA이며 15 또는 30 반복수를 갖는 초위성체인 경우이다(표 2).
(GAA)10 (GAA)20
A 그룹 30 0
B 그룹 1 29
(TCGA)15 (TCGA)30
A 그룹 19 11
B 그룹 9 21
마커 1에서 A그룹에 해당하는 30개의 샘플 가운데 (GAA)가 10번 반복된 (GAA)10에 해당하는 샘플이 30번 관찰되었고, (GAA)20에 해당하는 샘플은 0번 관찰되었으며, B그룹의 30개의 샘플에서는 (GAA)10에 해당하는 샘플이 1번 관찰되었고, (GAA)20에 해당하는 샘플이 29번 관찰되어 이에 따른 빈도분석 결과의 p 값은 5.24e-16이다.
마커 2에서는 A그룹에 해당하는 30개의 샘플 가운데 (TCGA)15에 해당하는 샘플이 19번 관찰되었고, (TCGA)30에 해당하는 샘플이 11번 관찰되었으며, B그룹 30개의 샘플에서는 (TCGA)15에 해당하는 샘플이 9번 관찰되었고, (TCGA)30에 해당하는 샘플이 21번 관찰되어 이에 따른 빈도분석 결과 p 값은 0.019이다.
종합하면, 마커 1의 p 값이 5.24e-16으로, 마커 2의 p 값인 0.019 보다 0에 더 가까우므로 마커 1이 마커 2보다 통계적으로 그룹 간 비교에 더 유의미하다고 할 수 있다.
상기 유전자 마커 탐색 방법에 있어서, 상기 (4)단계(선발된 유전적 다형성을 나타내는 염기 서열이 풀링 샘플 내의 그룹을 구분하는 유전자 마커로 작용하는지 검증하는 단계) 이후에, 그룹별로 클러스터링하여 그룹간 상관성을 확인하는 단계;를 추가로 포함할 수 있다. 클러스터링(군집화)은 개체들이 주어졌을 때, 개체들을 몇 개의 클러스터(부분 그룹)으로 나누는 과정을 나타내며, 개체를 그룹으로 나누는 과정을 통해 클러스터 내부 멤버들 사이는 서로 가깝게, 서로 다른 두 클러스터 사이의 멤버 간에는 서로 멀게 하는 것이 클러스터링의 목표이다. 상관성의 확인은 본 기술 분야에 알려진 클러스터링 방법을 적용할 수 있고, 구체적으로 주성분 분석(principal component analysis), 히트맵을 사용할 수 있다.
본 발명의 한 실시예에서는, 왕지네에 대한 총 6개 그룹에 대해서 PCA법과 히트맵을 이용하여 클러스터링을 수행하였고, 그 결과 동북아 지역과 동남아 지역이 뚜렷이 구분되며, 두 지역간 왕지네의 상관성이 각 지역내의 왕지네보다 상관관계가 낮은 것을 알 수 있었다(도 1, 도 2 참조). 이 결과는 본 발명에서 탐색된 유전자 마커인 서열번호 20의 염기서열을 증폭할 수 있는 프라이머 세트(서열번호 36의 염기서열로 구성된 프라이머; 및 서열번호 37의 염기서열로 구성된 프라이머)를 이용하여 검증된 전기영동 결과와 일관된 것을 알 수 있었다.
상기 유전자 마커 탐색 방법은 상기 (3)단계(유전적 다형성을 나타내는 염기 서열을 유전자 마커로 선발하는 단계) 이후에, 선발된 유전자 마커의 유전적 다형성을 나타내는 염기 서열을 특이적으로 증폭할 수 있는 프라이머 세트를 제작하는 단계;를 추가로 포함할 수 있다.
본 발명에서 사용된 용어 '프라이머'는 상보적인 주형과 염기쌍(base pair)을 형성할 수 있고 주형 가닥 복사를 위한 시작 지점으로 기능을 하는 짧은 핵산 서열을 의미한다. 프라이머 세트란 정방향(forward) 프라이머와 역방향(reverse) 프라이머의 조합을 의미한다.
본 발명에서 프라이머는 적절한 완충용액 및 온도에서 DNA 중합효소에 의한 중합 반응을 위한 시약 및 상이한 4가지 디옥시뉴클레오타이드의 존재하에서 DNA 합성을 개시할 수 있다. 본 발명의 프라이머는, 각 마커 유전자에 특이적인 프라이머로 10개 내지 30개의 뉴클레오타이드 서열을 가진 센스 및 안티센스 핵산일 수 있으며, 프라이머는 DNA 합성의 개시점으로 작용하는 프라이머의 기본 성질을 변화시키지 않는 추가의 특징을 가질 수 있다.
이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 본 발명을 보다 구체적으로 설명하기 위한 것으로, 본 발명의 범위가 이들 실시예에 의해 제한되는 것은 아니다.
비교예 1. 어류의 genomic DNA 서열로부터 초위성체 서열 분석
1-1. 어류의 gDNA 추출 및 라이브러리 구축
어획량이 적은 고급 어류 2종(가자미류)에 대한 구분을 목적으로 초위성체 마커에 대한 분석을 수행하였다. 상기 가자미는 범가자미(Verasper variegatus)와 줄가자미(Clidoderma asperrimum)이다. 각 그룹의 샘플 수는 각각 7, 5개였다. 어류의 조직으로부터 gDNA를 추출하여 라이브러리를 구축(MiSeq Reagent Kit v3, 2x300)하였다.
1-2. 차세대 염기서열 분석(Next generation sequencing, NGS)를 통한 데이터 생산, 초위성체 서열 분석
일루미나사의 Miseq 플랫폼(version 3)을 이용하여 로우 데이터를 생산하였다. 전처리 과정으로 저품질 및 어뎁터를 트리밍하여 순수 어류의 고품질 DNA 서열만을 추출하였다. 필터링된 DNA 서열로부터 공인된 생물 정보 마커 탐색 프로그램(misa, perl 프로그램)을 이용하여 초위성체를 확인하고 길이가 다양한 후보군을 선발하였으며, 인접서열 정보를 이용하여 프라이머 세트를 디자인(primer3)하였다.
1-3. 탐색된 초위성체 마커에 대한 검증
후보군 가운데 길이의 다형성을 가장 많이 보이는 후보 초위성체 마커에 대한 인접 서열로부터 프라이머 세트를 디자인하여 PCR로 길이의 차이를 확인하였다.
확인 결과, 위 비교예 1-1 방법으로 초위성체 마커를 발굴하였을 때 샘플 수가 충분하지 않아서 초위성체를 발굴하기 어려웠다. 샘플수가 많을수록 마커 탐색에 유리한 것을 알 수 있었다. 구체적으로, 초위성체를 마커로 확보하기 위해 개체간, 생물종간의 다양한 환경에서의 샘플이 확보되어야 하는 것을 알 수 있었다.
또한, 유전체 크기가 큰 생물의 경우, 전체 유전체 내에서의 마커를 손실없이 생산하기 위해서는 대량의 서열 생산이 필요한 것을 알 수 있었다. 인접 서열을 포함한 길이가 긴 초위성체를 탐색하기 위해서는 롱 리드(long lead) 생산 플랫폼(PacBio)을 사용하면 유리하지만, 이러한 경우 비용 부담이 크다. 이에 대해서는 시큐얼(sequel) 플랫폼 도입으로 여전히 비용 부담이 크지만 기존 long read 대비 절반 이하의 비용으로 서열 생산이 가능할 것으로 생각된다.
실시예 1. 왕지네의 gDNA로부터 초위성체 서열 분석 및 왕지네의 기원종 감별 효과 확인
기원종(한국산, 호북성, 절강성 왕지네 샘플)과 위품(유통품, 인도네시아, 라오스 샘플)을 비교 분석하여 왕지네의 기원종을 감별하는 마커를 제작하였다.
1-1. 왕지네의 gDNA 추출 및 라이브러리 구축
왕지네의 학명에 근거하여 6개 집단(한국, 중국 절강성, 중국 호북성, 중국 유통품, 인도네시아, 라오스)에 대한 샘플을 수집하였다. 왕지네 샘플 번호는 하기와 같다: 한국(샘플 번호: 1~25), 중국 절강성(샘플 번호: 26~45), 중국 호북성(샘플 번호: 46~65), 중국 유통품(샘플 번호: 66~83), 인도네시아(샘플 번호: 84~101), 라오스(샘플 번호: 102). 왕지네로부터 gDNA를 추출하고, 개체를 구분하기 위해서 바코드 인덱스를 라이브러리의 각 DNA 단편(fragment)에 부착하여 집단 분석에 사용하였다.
참조 서열이 없는 왕지네에 대해 비교 그룹간 공통 영역을 최대한 많이 확보하기 위해 제한효소를 이용하여 라이브러리를 제작하였다. 라이브러리 제작에는 일루미나사의 TruSeq Nano DNA kit를 이용하고, 품질 검사는 에질런트사 Bioanalyzer DNA Chip를 이용하였다.
라이브러리는 사용된 제한효소의 개수에 따라 2가지로 제작하였으며, 하나는 ApekⅠ을 사용한 싱글 제한효소(single enzyme) 라이브러리이고, 다른 하나는 2개의 제한효소(pst1 및 msp1)를 이용한 듀얼 제한효소(dual enzyme) 라이브러리이다.
구축된 라이브러리를 전기영동으로 확인한 결과, 500~1000bp 길이에서 메인 라이브러리가 제작된 것을 알 수 있었다.
1-2. 차세대 염기서열 분석(Next generation sequencing, NGS)를 통한 대용량 유전체 서열 확보
일루미나사의 Miseq 플랫폼을 이용하여 로우 데이터를 생산하였다(Miseq reagent kit v3, Q30 > 70% bases). pacBio 계열은 리드 길이가 길지만 비용과 에러율이 높아 short read 계열인 일루미나사의 플랫폼 중 리드 길이가 길고 정확도가 높은 Miseq 플랫폼을 사용하였다.
생산된 서열에 대해 Quality control 전문 툴(fastQC)을 이용하여 QC를 진행하였으며, trimming 프로그램(cutadapt)으로 어뎁터 및 저품질 서열을 트리밍하였다. 트리밍한 결과, 최소 88.3%부터 최대 100%까지 필터 패싱(filter passing)된 것을 알 수 있었다.
수득한 순수 DNA를 획득하고, 마커의 빠른 탐색을 위해 리눅스 명령 스크립트를 이용해 대량 염기 서열에 대해서 중복 제거 및 카운팅 작업을 수행하였다. 중복 서열 확인 및 동일 서열에 대해서 카운팅을 함(collapsing)으로써 대용량 DNA 서열에 대해서 분석 시간을 단축할 수 있었다.
1-3. 초위성체 탐색 및 그룹간 비교를 통한 감별 마커 발굴
인덱스 서열을 이용하여 샘플별로 fastq 데이터를 분류하였다. misa 프로그램으로 초위성체를 탐색하고, 인접 서열의 일치 여부에 따라 마커 후보군의 영역을 추출하였다. 다형성을 확인하였고, 지역 및 기원종 그룹에 따라 차이가 나는 초위성체의 다형성을 기반으로 랭크(rank) 기반의 마커 후보군을 얻었다. 각 마커 후보들에 대해서, 초위성체의 양 측면에 존재하는 인접 서열과, 프라이머 서열을 얻었다. 다양한 그룹간 비교(지역/기원종 여부)를 위해 기원종 여부외에도 특정 지역간 차이를 보이는 영역도 마커 탐색 영역에 포함하였다. 서열번호 20과 같이 기원종 그룹에만 존재하는 유전변이도 마커 후보군으로 선발하였다.
1-3-1. 초위성체 반복수에 대한 매트릭스 작성
실시예 1-2에서 중복 서열이 제거된 순수 DNA 내의 인접 서열(flanking sequence)을 기반으로 하여 개체간 동일 좌위를 추정하였다. 총 6개 집단에 대해 각 지역의 그룹을 기준으로 초위성체 반복수에 대한 매트릭스를 작성하였다. 6개 집단에서 기원종 또는 지역적으로 차이를 나타내는 정보를 갖는 초위성체와, 이의 인접서열을 하기 표 3에 나타낸다.
하기 표 3에서 "seqID"는 초위성체와 이의 양 측면에 위치하는 인접서열이며, "인접서열|인접서열"형식으로 나타내고, "|"는 초위성체를 나타낸다. "초위성체 반복수"는 각 그룹에서 확인된 반복수들을 나타내며, 각 개체들에서 중복되어 나타나는 반복수는 1회만 기재한다. 예를 들면, 서열번호 1의 한국 그룹의 초위성체 반복수가 14, 17로 기재된 것에 대하여, 한국 그룹의 여러 개체들이 공통적으로 GA 모티프를 가질 때, GA 모티프가 각각 14번, 17번 반복된 개체가 여러번 확인되어도 1회만 기재하였다.
본 명세서에 첨부되는 서열목록에는 하기 표 3의 서열번호 1 내지 서열번호 16을 인접서열, 초위성체(모티프의 반복수는 확인된 반복수 중 최소값만 입력), 인접서열의 형태로 입력하였다. 즉, 서열번호 1 내지 서열번호 16은 그룹에서 확인된 초위성체의 관찰된 모티프 반복수의 최소값만 나타낸 대표 서열이며, 실제 서열은 하기 표 3에 개시된 각 그룹에서 확인된 여러 초위성체 반복수를 각각 포함하는 서열이다. 예를 들면, 서열번호 1의 경우 서열목록에는 인접서열과 인접서열 사이에 모티프 GA를 입력하되, 각 그룹에서 확인된 초위성체 반복수에서 가장 최소값에 해당되는 7개를 입력하며, AATATTTGCATAATGCGACACTTCATAAAC GAGAGAGAGAGAGATGGCGGCGCAACGAGCACGTGCGTCGGACC로 나타낸다(상기 서열에서 초위성체는 볼드체로 나타낸 부분임). 서열번호 1 내지 서열번호 16에 대해서 서열목록에 입력되지 않은 다른 반복수를 가지는 초위성체를 포함하는 서열들은 하기 표 3에 초위성체의 반복수를 기재함으로써 갈음한다.

seqID
초위성체(반복수) 초위성체 반복수
한국 중국
절강성
중국
호북성
중국 유통품 인도네시아 라오스
AATATTTGCATAATGCGACACTTCATAAAC | TGGCGGCGCAACGAGCACGTGCGTCGGACC
(서열번호 1)
(GA)n 14,17 12,13,14 11,13,14 7 7,8,9,13 8,9,11,12
ACACGGCGAAATTTCTGCATGACACCTCCA | CGTATATGGCACGACTATTCGGCCACCCTC
(서열번호 2)
(CCT)n 8,9 8 6,8 6 6 7
AGATATCGGCGAAAGGCATCCGATCCGACG | AACGCACGTGCTGACGTTGACAGAATAAAA
(서열번호 3)
(AC)n 8 8 8 6,9 6 6
AGGTCGACCGAGGGCACAAGGCAACGAGGA | AGTAGTTTTGGCAGCAGTTGCTGCAAATCC
(서열번호 4)
(AAC)n 2,3,5,6 2,3,6,8 2,3,6 3 3 3
ATGAGAGCGAGCGACCAGTGCGGCAGAGGA | AACGAGAACGTGCGTGCCTCCGAGGCTTTT
(서열번호 5)
(AG)n 9,12,13,14,19,20,21,22,23,24 9,11,12,13,14,20,21,24 10,11,12,13,16,17,19,20,21,22,23,24,25 9,15,21,22 10,20,21,22,23 12,13,16,17
ATGCGAGTGCTGTCACGACCTGTGTTGCTC | AGCGGGAATTGAAAAACGCGCGCGCTCCCA
(서열번호 6)
(TTG)n 7,8,9,10 8,9 8,9 9,11,13 8,9,10,13 10,12
ATTGAAAGTTTATTTAATGTTTCTTTGTTG | AATTATGATTATTATTATTATACCTATGTG
(서열번호 7)
(TAT)n 6 6 6,7 5 5 5
CAAGCCGACGCTCGCAATTTTAGGAAAATT | TTATAAAAAAGAAAAGTGAAAATGTTTTGA
(서열번호 8)
(TTG)n 5,6 5,6 5,6,7 6 6 9
CACATAGGTATAATAATAATAATCATAATT | CAACAAAGAAACATTAAATAAACTTTCAAT
(서열번호 9)
(ATA)n 6 6 6,7 5 5 5
CGAGCACGTAAGCTGTACTCGCCTCCTAAC | TTCTGTTCATCGCTCTTGGCAACAGTTAAA
(서열번호 10)
(CT)n 7 7,8 7 5,6 5,6 5
CGCACGCACGCGTTTCTAATCACGGTTTCC | GACGAAAGAAAGTAGAGGATGAGAATACAA
(서열번호 11)
(CT)n 13,14,15,16,17,20,21,22,23,24,25,26 13,14,15,16,18,19,21,25 11,12,14,15,16,18,19,20,21,22,24,25,26 9,14 10,13,21 16,17,22
GAAAAGCCTCGGAGGCACGCACGTTCTCGT | TTCCTCTGCCGCACTGGTCGCTCGCTCTCA
(서열번호 12)
(TC)n 9,12,13,14,21,22 9,11,12,13,14,20 10,11,12,13,16,17,19,20,21 9,21 10,20,21,22 13,17
TCGCGCCACTGACGAACTGGATGGACGAAG | CCACCTCCTGGACGCTCCTTTTAATACGAC
(서열번호 13)
(GAA)n 6 6 6 8 8 7
TGGGAGCGCGCGCGTTTTTCAATTCCCGCT | GAGCAACACAGGTCGTGACAGCACTCGCAT
(서열번호 14)
(CAA)n 7,8,9,10 8,9 8,9 8,9,11 8,9,10,13 10,12
TGGTTTTAACGCTTGTGGAGAAAATGAGAT | AAGGGAAAAAGAAACTGATGATTCATTTGC
(서열번호 15)
(AG)n 4 2,4 4 6,9,10 6,9,11 14
TTTAACTGTTGCCAAGAGCGATGAACAGAA | GTTAGGAGGCGAGTACAGCTTACGTGCTCG
(서열번호 16)
(AG)n 7 7,8 5,7,8 5,6 5,6 5
표 3에 나타낸 바와 같이, 6개 그룹이 모두 공유하는 경우는 16개 영역, 5개 그룹은 26개 영역, 4개 그룹은 152개 영역, 3개 그룹은 1,465개 영역, 2개 그룹은 644개 영역, 1개 그룹만 갖는 영역은 170개였다.
1-3-2. 그룹별 클러스터링
총 6개 집단에 대해서 반복수가 복수인 경우, 평균을 취하여 PCA법과 히트맵을 이용하여 그룹별 클러스터링을 수행하였다.
도 1에 나타낸 바와 같이, PCA 결과에서 전반적으로 동북아 지역과 동남아 지역이 뚜렷이 구분되는 것을 알 수 있었으며, 하기 표 4와 같이 동북아와 동남아는 공유하고 있지 않은 유전체(genome)가 상당수 있을 것으로 추정된다.
또한, 도 2는 왕지네 6개 집단 간의 상관성(correlation)에 대한 히트맵을 나타낸다. 상관성 수치는 1부터 -1까지의 값을 갖는다. 1에 가까울수록 그룹간 상관성이 높고, 서로 가까운 그룹을 의미하며 붉은색으로 나타낸다. 0은 상관성이 없다는 것을 의미하고, 마이너스(-) 상관성 값은 파란색으로 나타낸다.
도 2에서 알 수 있듯이, 히트맵 결과는 PCA 결과와 같이 동북아 지역과 동남아 지역이 구분되는 것으로 나타났다. 한국, 중국 절강성, 중국 호북성은 서로 상관성이 있는 것으로 확인되었다. 하지만, 라오스, 중국 유통품(trade), 인도네시아 샘플은 위 한국, 중국 절강성, 중국 호북성 샘플과는 상관성이 낮은 것으로 나타났다.
1-3-3. 최종 마커 후보군 및 프라이머 세트 제작
인접 서열(flanking sequence)을 기반으로 동일 좌위를 추정하였다. 종래 참조 서열이 확립된 종의 경우이거나, 또는 참조 서열이 없어 어셈블리 작업을 수행하여 참조 서열을 만든 경우, 참조 서열의 특정 위치에, 동일 좌위를 갖는 샘플 유래의 라이브러리를 맵핑하여 비교할 수 있었다. 본 발명의 경우 참조 서열 없이 유전자 마커를 탐색하고자, 각 샘플에서 공유하고 있는 인접 서열을 먼저 추정하고, 이 위치를 동일 좌위로 삼아 각 샘플의 초위성체의 반복수를 비교하였다.
구체적으로, 초위성체 모티프를 탐색하는 공인 소프트웨어(misa, perl 프로그램)를 이용하여 마커를 선발하였다. 발굴된 마커에 대하여 프라이머를 제작할 수 있는 인접 서열이 포함된 데이터를 추출하고 이로부터 Primer 3를 이용하여 프라이머 세트를 제작하였다. 최종적으로 리눅스 환경에서 in house script를 통해 동일 좌위로 예측된 초위성체 마커에 대해서 길이의 다양성을 기준으로 후보군을 필터링하고, 마커와 프라이머 세트 결과를 취합하여 다형성을 중심 순위로 하여 후보군을 제시하였다.
구체적으로, 개체 혹은 그룹 간에서 초위성체 존재 여부 및 길이의 차이를 보이는 초위성체를 후보로 선발하였다. 각 리드에 대한 스코어는 0점 또는 1점이고, 1점이 부여된 리드를 유전자 마커 후보군으로 선발하며, 하기의 기준으로 스코어를 부여한다.
0점: (a) 풀링 샘플 내에서 모든 그룹에 존재하지만 초위성체의 모티프의 반복수가 동일한 리드,
1점: (b) 풀링 샘플 내에서 한 그룹의 개체들이 공유하는 인접 서열을 포함하는 리드; 또는 (c) 풀링 샘플 내에서 모든 그룹이 공유하는 인접 서열을 포함하면서, 리드 내의 초위성체의 모티프가 동일하지만, 모티프의 반복수는 상이한 리드.
한편, 비교 목적에 따라 추가적인 스코어를 부여하여 값이 클수록 상위 랭크 마커로 제시할 수 있다. 또한, 빈도분석을 통해 p값이 유의한 순서로 후보 마커에 대해 순위를 정할 수 있다. 빈도분석은 각 그룹마다 관찰된 모티프의 반복수에 따라 컨틴전시 테이블(contingency table)을 생성하여 통계분석을 실시하여 후보 마커군을 선정할 수 있다(표 1, 2 참고).
위 방법(in house script)에 따라 스코어를 부여하고 순위를 정하였다. 최종 마커 후보군을 유전자형 검사(genotyping)하여 실험적으로 최종 검증하였다. 결과적으로, 총 2,482개의 왕지네 기원종 감별용 유전자 마커 후보군 중에서 상위 14개의 후보가 최종 선발되었으며, 이를 하기 표 4에 나타낸다.
하기 표 4에서 "Sequence" 컬럼의 서열은 위 표 3의 "seqID"와 동일하게, 초위성체/유전변이와 이의 양 측면에 위치하는 인접서열을 기재한 것이며, "인접서열|인접서열" 형식으로 나타내고, "|"는 초위성체를 나타낸다. 상기 유전변이는 초위성체가 한 그룹에는 있고, 다른 그룹에는 없는 경우를 나타낸다. 구체적으로, 유전변이는 두 그룹 중 초위성체가 있는 그룹에서는 초위성체 및 이의 인접서열이 삽입되었거나, 초위성체가 없는 그룹에서는 초위성체 및 이의 인접서열이 결실된 것을 의미한다. 하기 표 4의 "(ID)반복수"는 초위성체의 모티프 종류와 반복수를 나타낸다. 예를 들면, (AATA)11은 아데닌-아데닌-티민-아데닌 모티프가 11회 반복된 것을 나타낸다. 본 명세서에 첨부되는 서열목록에는 하기 표 4의 서열번호 17 내지 서열번호 29를 상기 서열번호 1 내지 서열번호 16의 경우와 동일하게, 인접서열, 초위성체(모티프의 반복수는 확인된 반복수 중 최소값만 입력), 인접서열의 형태로 입력하였다.

Sequence
(ID)반복
초위성체 반복수
한국 중국 절강성 중국 호북성 중국 유통품 인도네시아 라오스
AAAATTATATATTTAATCTTATATTAGATT|
AACCACTACTATCAGATTGTGAGATAAGCG
(서열번호 17)
(AATA)n - - - 7 7,8 10,11,12
AAACACTTTTAATATCCCACACCCATCTCC|
CGATGTCTTCCTCTCTCCTTCAACCATCTT
(서열번호 18)
(CT)n - - - 13,20,21,23,24 11,12,13,20,21,22 17,18,19,25
AAACGGGGTGGTGCTGGGAGGAGGTGATGT|
AGAACGAGGAGACGGATATACGGTGAGATT
(서열번호 19)
(AGG)n - - - 8,9 8,9,10,12 -
AACTTCCATTTCGATCAAATTTCATTTGAC
|AAGATTATATAAAAAAAGTTAAAATTCATT
(서열번호 20)
(ATA)n 14 8,11 8 - - -
AATGCTTCGAGAGCTCCTCGCGATATTTCA
|CTCTTTCTCTACCCACAGACGTTACCAAAT
(서열번호 21)
(TC)n 29 8 8 - - -
AATATTTGCATAATGCGACACTTCATAAAC
|TGGCGGCGCAACGAGCACGTGCGTCGGACC
(서열번호 22)
(GA)n 14,17 12,13,14 11,13,14 7 7,8,9,13 8,9,11,12
AGATATCGGCGAAAGGCATCCGATCCGACG|
AACGCACGTGCTGACGTTGACAGAATAAAA
(서열번호 23)
(AC)n 8 8 8 6,9 6 6
ATTGAAAGTTTATTTAATGTTTCTTTGTTG|
AATTATGATTATTATTATTATACCTATGTG
(서열번호 24)
(TAT)n 6 6 6,7 5 5 5
CACATAGGTATAATAATAATAATCATAATT|
CAACAAAGAAACATTAAATAAACTTTCAAT
(서열번호 25)
(ATA)n 6 6 6,7 5 5 5
TCGCGCCACTGACGAACTGGATGGACGAAG|
CCACCTCCTGGACGCTCCTTTTAATACGAC
(서열번호 26)
(GAA)n 6 6 6 8 8 7
TGGTTTTAACGCTTGTGGAGAAAATGAGAT|
AAGGGAAAAAGAAACTGATGATTCATTTGC
(서열번호 27)
(AG)n 4 2,4 4 6,9,10 6,9,11 14
AAAGTTAAGCAGGCACACGGAATTAGATCC|
GCCAAGGGAGGATGAATTCCTTCGCTGTGA
(서열번호 28)
(GA)n - - - 14,15 18 20
TCTTTTTTACACAGTGATTAACTTTTTTCA|
TTCTTTCTTCTTTCATTACCACTTATAAAC
(서열번호 29)
(TC)n - - - 11,13 12 6
상기 표 4의 후보군에 대한 프라이머 세트를 표 4의 순서와 동일한 순서로 하기 표 5에 나타낸다. 프라이머 세트는 인접 서열을 기반으로 제작하였다.
ID (초위성체)반복수 FORWARD
PRIMER0
(5'-3')
Tm
(℃)
size REVERSE
PRIMER1
(5'-3')
Tm
(℃)
seq_44814170_x1 (AATA)n GTGGAAAGAGGTGGTCGTGA
(서열번호 30)
59.608 20 AGCGCCGCTTATCTCACAAT
(서열번호 31)
60.179
seq_12501694_x1 (CT)n CCCAGCAAACACTTTTAATATCCCA
(서열번호 32)
59.813 25 TCTCAGTCTGCAGAAGATGGT
(서열번호 33)
58.466
seq_8495433_x1 (AGG)n GGATAAAACGGGGTGGTGCT
(서열번호 34)
60.323 20 ACACGAAGCTCAGTTGACACT
(서열번호 35)
59.863
seq_17064426_x1 (ATA)n CAGCTTTAAACTTCCATTTCGATCA
(서열번호 36)
58.389 25 TGTCTTGTGTTATTTCCAGAAACAGT
(서열번호 37)
59.398
seq_5316664_x1 (TC)n CACCGCAAATGCTTCGAGAG
(서열번호 38)
59.904 20 ATCAGTCCAGTCACGCGTAC
(서열번호 39)
59.829
seq_8435848_x1 (GA)n GACGATTACGCCCAGACGTA
(서열번호 40)
59.622 20 GTCGTCACGAGTCGCAGC
(서열번호 41)
61.167
seq_6284008_x1 (AC)n CGAGGAGAACGACCATCAGG
(서열번호 42)
59.899 20 TTTATTCTGTCAACGTCAGCAC
(서열번호 43)
57.274
seq_1822185_x1 (TAT)n AAACCCCTCGTGTTAGGAGG
(서열번호 44)
59.018 20 ATGTTCACAGGTTCACATAGGT
(서열번호 45)
57.359
seq_12671094_x1 (ATA)n TCACAATGTTCACAGGTTCACA
(서열번호 46)
58.385 22 CGTGTTAGGAGGAATAAGAAATTGA
(서열번호 47)
57.157
seq_11486506_x1 (GAA)n TGGGGGACAGTCTTGAAGGA
(서열번호 48)
60.105 20 TTAAAAGGAGCGTCCAGGAG
(서열번호 49)
57.237
seq_38151980_x1 (AG)n GAGGTGTTGGACGGAGAAGG
(서열번호 50)
60.037 20 GGGGGAGTGGGAGTGAGATA
(서열번호 51)
59.735
seq_3859255_x1 (GA)n AGTTAAGCAGGCACACGGAA
(서열번호 52)
59.892 20 GCAATCACATCACAGCGAAGG
(서열번호 53)
60.202
seq_52036214_x1 (TC)n TCGACTCCCCTCCACTCTTT
(서열번호 54)
59.885 20 AGGGGAGAGGAAGGAACTCC
(서열번호 55)
59.957
상기 프라이머 세트의 적절성 확인을 위해 해당 집단을 대상으로 PCR 증폭한 산물을 수집된 집단의 결과와 비교하였을 뿐만 아니라, 마이토콘드리아의 COI 염기서열 분석 결과와도 비교하였을 때 해당 초위성체가 한약재 오공의 기원종인 왕지네 감별에 활용할 수 있음을 확인하였다. 생어 기반의 시퀀싱을 통해 반복 서열내용을 확인할 수도 있다.
1-3-4. 초위성체 서열로 왕지네의 기원종 감별 효과 확인
제작된 마커 후보군 중 표 5의 ID: seq_17064426_x1에 해당하는 (ATA)n 초위성체/유전변이를 검증에 사용하였다. 구체적으로, 표 4의 서열번호 20의 염기 서열(ID: seq_17064426_x1)을 증폭하고자, ID: seq_17064426_x1에 해당하는 프라이머 세트인 표 5의 서열번호 36의 염기 서열로 구성된 프라이머; 및 서열번호 37의 염기 서열로 구성된 프라이머;로 이루어진 프라이머 세트를 사용하여 PCR을 수행하였다. PCR은 하기 조건에서 수행하였다: (1) 95℃ 3분, (2) 95℃ 30초, (3) 60℃ 30초, (4) 72℃ 40초, (5) 72℃ 5분. (2) ~ (4)는 33회 수행하였다.
도 3에서 알 수 있듯이 왕지네 기원종 특이적인 밴드를 확인하였다. 1번부터 65번 검체는 왕지네 기원종(한국, 중국 절강성, 중국 호북성)이며, 66번부터 102번 검체는 중국 유통품, 인도네시아, 라오스 검체로써, 왕지네 기원종(1~66)에서만 밴드가 확인되었다. 전기영동 결과 중 9번, 57번은 왕지네 기원종으로 최초 분류되었으나 예상과 달리 밴드가 확인되지 않았고, 90, 94번 검체는 인도네시아 검체로 최초 분류되었으나 밴드가 형성되었다. 이에 따라 미토콘드리아 COI 시퀀싱을 수행하여 동정한 결과 최초 샘플 분류에 이상이 있는 것을 확인하였다. 샘플 9번, 57번은 왕지네 기원종이 아니었고, 90번, 94번은 왕지네 기원종으로 확인되었다. 따라서, 해당 마커를 이용하여, 한국, 중국 절강성 및 중국 호북성 유래의 왕지네와, 중국 유통품, 인도네시아 왕지네를 감별할 수 있으므로, 해당 마커가 정확히 작용하고 있음을 확인하였다.
실시예 정리
실시예 1의 방법을 통해 비교예 1의 방법에 비해서 더 많은 유전적 다형성을 확보하였다. 이는 초위성체를 유전자 마커로 선발하기 위해서 많은 수의 샘플이 필수적이며, 대용량 샘플링을 통해서 유전적 다형성을 확보할 수 있는 것을 알 수 있었다.
또한, 유전자 마커 탐색시 샘플에서 유래한 DNA만을 이용하여, 즉 에러가 많이 발생하는 어셈블리 과정을 생략함으로써, 효율적이고 정확하게 유전자 마커를 확보할 수 있었다.
<110> themoagen KOREA FOOD & DRUG ADMINISTRATION <120> Approach for microsatellite marker detection using NGS <130> 2 <160> 55 <170> KoPatentIn 3.0 <210> 1 <211> 74 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 1 aatatttgca taatgcgaca cttcataaac gagagagaga gagatggcgg cgcaacgagc 60 acgtgcgtcg gacc 74 <210> 2 <211> 78 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 2 acacggcgaa atttctgcat gacacctcca cctcctcctc ctcctcctcg tatatggcac 60 gactattcgg ccaccctc 78 <210> 3 <211> 72 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 3 agatatcggc gaaaggcatc cgatccgacg acacacacac acaacgcacg tgctgacgtt 60 gacagaataa aa 72 <210> 4 <211> 66 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 4 aggtcgaccg agggcacaag gcaacgagga aacaacagta gttttggcag cagttgctgc 60 aaatcc 66 <210> 5 <211> 78 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 5 atgagagcga gcgaccagtg cggcagagga agagagagag agagagagaa cgagaacgtg 60 cgtgcctccg aggctttt 78 <210> 6 <211> 81 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 6 atgcgagtgc tgtcacgacc tgtgttgctc ttgttgttgt tgttgttgtt gagcgggaat 60 tgaaaaacgc gcgcgctccc a 81 <210> 7 <211> 75 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 7 attgaaagtt tatttaatgt ttctttgttg tattattatt attataatta tgattattat 60 tattatacct atgtg 75 <210> 8 <211> 75 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 8 caagccgacg ctcgcaattt taggaaaatt ttgttgttgt tgttgttata aaaaagaaaa 60 gtgaaaatgt tttga 75 <210> 9 <211> 75 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 9 cacataggta taataataat aatcataatt ataataataa taatacaaca aagaaacatt 60 aaataaactt tcaat 75 <210> 10 <211> 70 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 10 cgagcacgta agctgtactc gcctcctaac ctctctctct ttctgttcat cgctcttggc 60 aacagttaaa 70 <210> 11 <211> 78 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 11 cgcacgcacg cgtttctaat cacggtttcc ctctctctct ctctctctga cgaaagaaag 60 tagaggatga gaatacaa 78 <210> 12 <211> 78 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 12 gaaaagcctc ggaggcacgc acgttctcgt tctctctctc tctctctctt cctctgccgc 60 actggtcgct cgctctca 78 <210> 13 <211> 78 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 13 tcgcgccact gacgaactgg atggacgaag gaagaagaag aagaagaacc acctcctgga 60 cgctcctttt aatacgac 78 <210> 14 <211> 81 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 14 tgggagcgcg cgcgtttttc aattcccgct caacaacaac aacaacaaca agagcaacac 60 aggtcgtgac agcactcgca t 81 <210> 15 <211> 64 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 15 tggttttaac gcttgtggag aaaatgagat agagaaggga aaaagaaact gatgattcat 60 ttgc 64 <210> 16 <211> 70 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 16 tttaactgtt gccaagagcg atgaacagaa agagagagag gttaggaggc gagtacagct 60 tacgtgctcg 70 <210> 17 <211> 88 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 17 aaaattatat atttaatctt atattagatt aataaataaa taaataaata aataaataaa 60 ccactactat cagattgtga gataagcg 88 <210> 18 <211> 82 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 18 aaacactttt aatatcccac acccatctcc ctctctctct ctctctctct ctcgatgtct 60 tcctctctcc ttcaaccatc tt 82 <210> 19 <211> 84 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 19 aaacggggtg gtgctgggag gaggtgatgt aggaggagga ggaggaggag gaggagaacg 60 aggagacgga tatacggtga gatt 84 <210> 20 <211> 84 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 20 aacttccatt tcgatcaaat ttcatttgac ataataataa taataataat aataaagatt 60 atataaaaaa agttaaaatt catt 84 <210> 21 <211> 76 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 21 aatgcttcga gagctcctcg cgatatttca tctctctctc tctctcctct ttctctaccc 60 acagacgtta ccaaat 76 <210> 22 <211> 74 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 22 aatatttgca taatgcgaca cttcataaac gagagagaga gagatggcgg cgcaacgagc 60 acgtgcgtcg gacc 74 <210> 23 <211> 72 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 23 agatatcggc gaaaggcatc cgatccgacg acacacacac acaacgcacg tgctgacgtt 60 gacagaataa aa 72 <210> 24 <211> 75 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 24 attgaaagtt tatttaatgt ttctttgttg tattattatt attataatta tgattattat 60 tattatacct atgtg 75 <210> 25 <211> 75 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 25 cacataggta taataataat aatcataatt ataataataa taatacaaca aagaaacatt 60 aaataaactt tcaat 75 <210> 26 <211> 78 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 26 tcgcgccact gacgaactgg atggacgaag gaagaagaag aagaagaacc acctcctgga 60 cgctcctttt aatacgac 78 <210> 27 <211> 64 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 27 tggttttaac gcttgtggag aaaatgagat agagaaggga aaaagaaact gatgattcat 60 ttgc 64 <210> 28 <211> 88 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 28 aaagttaagc aggcacacgg aattagatcc gagagagaga gagagagaga gagagagagc 60 caagggagga tgaattcctt cgctgtga 88 <210> 29 <211> 72 <212> DNA <213> Unknown <220> <223> Scolopendra subspinipes mutilans <400> 29 tcttttttac acagtgatta acttttttca tctctctctc tcttctttct tctttcatta 60 ccacttataa ac 72 <210> 30 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> FORWARD <400> 30 gtggaaagag gtggtcgtga 20 <210> 31 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> REVERSE <400> 31 agcgccgctt atctcacaat 20 <210> 32 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> FORWARD <400> 32 cccagcaaac acttttaata tccca 25 <210> 33 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> REVERSE <400> 33 tctcagtctg cagaagatgg t 21 <210> 34 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> FORWARD <400> 34 ggataaaacg gggtggtgct 20 <210> 35 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> REVERSE <400> 35 acacgaagct cagttgacac t 21 <210> 36 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> FORWARD <400> 36 cagctttaaa cttccatttc gatca 25 <210> 37 <211> 26 <212> DNA <213> Artificial Sequence <220> <223> REVERSE <400> 37 tgtcttgtgt tatttccaga aacagt 26 <210> 38 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> FORWARD <400> 38 caccgcaaat gcttcgagag 20 <210> 39 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> REVERSE <400> 39 atcagtccag tcacgcgtac 20 <210> 40 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> FORWARD <400> 40 gacgattacg cccagacgta 20 <210> 41 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> REVERSE <400> 41 gtcgtcacga gtcgcagc 18 <210> 42 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> FORWARD <400> 42 cgaggagaac gaccatcagg 20 <210> 43 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> REVERSE <400> 43 tttattctgt caacgtcagc ac 22 <210> 44 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> FORWARD <400> 44 aaacccctcg tgttaggagg 20 <210> 45 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> REVERSE <400> 45 atgttcacag gttcacatag gt 22 <210> 46 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> FORWARD <400> 46 tcacaatgtt cacaggttca ca 22 <210> 47 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> REVERSE <400> 47 cgtgttagga ggaataagaa attga 25 <210> 48 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> FORWARD <400> 48 tgggggacag tcttgaagga 20 <210> 49 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> REVERSE <400> 49 ttaaaaggag cgtccaggag 20 <210> 50 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> FORWARD <400> 50 gaggtgttgg acggagaagg 20 <210> 51 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> REVERSE <400> 51 gggggagtgg gagtgagata 20 <210> 52 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> FORWARD <400> 52 agttaagcag gcacacggaa 20 <210> 53 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> REVERSE <400> 53 gcaatcacat cacagcgaag g 21 <210> 54 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> FORWARD <400> 54 tcgactcccc tccactcttt 20 <210> 55 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> REVERSE <400> 55 aggggagagg aaggaactcc 20

Claims (11)

  1. (1) 샘플별로 DNA를 추출하고 바코딩 및 풀링(pooling)하여, 라이브러리를 제작하는 단계;
    (2) 제작된 라이브러리에 대해 차세대 염기서열분석(next generation sequencing, NGS)을 적용하여 데이터를 얻어, 풀링 샘플 내에서 동일한 인접 서열을 가지는 리드(reads)를 선별하고, 선별된 동일한 인접 서열을 가지는 각 리드 내의 초위성체(micrsatellite)의 모티프 및 반복수를 통해 유전적 다형성을 확인하는 단계;
    (3) 풀링 샘플 내 한 그룹의 개체들이 다른 그룹의 개체들에 비해서 특이적으로 공유하고 있는 유전적 다형성을 나타내는 염기 서열을 유전자 마커로 선발하는 단계; 및
    (4) 선발된 유전자 마커에 의해 상기 풀링 샘플 내의 그룹이 구분되는지 검증하는 단계;를 포함하여,
    참조 서열(refernence genome sequence)이나 염기 서열 어셈블리 작업 없이 풀링 샘플에서 유래한 DNA만으로 유전자 마커를 탐색하는 것을 특징으로 하는 유전자 마커 탐색 방법.
  2. 삭제
  3. 삭제
  4. 청구항 1에 있어서,
    상기 (1)단계는 샘플별로 DNA를 추출하는 과정에 제한 효소를 사용하는 것을 특징으로 하는 유전자 마커 탐색 방법.
  5. 삭제
  6. 삭제
  7. 청구항 1에 있어서,
    상기 (3)단계는 상기 각 리드에 스코어를 부여하고, 상기 스코어 순위에 따라 선발된 마커 후보군내에서 상기 유전자 마커를 선발하는 것을 특징으로 하는 유전자 마커 탐색 방법.
  8. 청구항 7에 있어서,
    상기 스코어는 0점 또는 1점이고, 1점이 부여된 리드를 유전자 마커 후보군으로 선발하며, 하기의 기준으로 스코어가 부여되는 것을 특징으로 하는 유전자 마커 탐색 방법.
    (a) 풀링 샘플 내에서 모든 그룹에 존재하지만 초위성체의 모티프의 반복수가 동일한 리드 : 0점
    (b) 풀링 샘플 내에서 한 그룹의 개체들만이 공유하는 인접 서열을 포함하는 리드 : 1점
    (c) 풀링 샘플 내에서 모든 그룹이 공유하는 인접 서열을 포함하면서, 리드 내의 초위성체의 모티프가 동일하지만, 모티프의 반복수는 그룹별로 상이한 리드 : 1점
  9. 청구항 8에 있어서,
    상기 리드 중 (b) 리드는 풀링 샘플 내의 한 그룹과, 다른 그룹을 구별할 때 사용되는 유전자 마커 탐색 방법.
  10. 청구항 8에 있어서,
    상기 리드 중 (c) 리드는 한 그룹 내에서 서브그룹(subgroup)을 구별할 때 사용되는 유전자 마커 탐색 방법.
  11. 청구항 1에 있어서,
    상기 (3)단계 이후에, 선발된 유전자 마커의 유전적 다형성을 나타내는 염기 서열을 특이적으로 증폭할 수 있는 프라이머 세트를 제작하는 단계;를 추가로 포함하는 것을 특징으로 하는 유전자 마커 탐색 방법.
KR1020210019891A 2021-02-15 2021-02-15 차세대염기서열분석법을 이용한 초위성체 마커 탐색 접근법 KR102320966B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210019891A KR102320966B1 (ko) 2021-02-15 2021-02-15 차세대염기서열분석법을 이용한 초위성체 마커 탐색 접근법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210019891A KR102320966B1 (ko) 2021-02-15 2021-02-15 차세대염기서열분석법을 이용한 초위성체 마커 탐색 접근법

Publications (1)

Publication Number Publication Date
KR102320966B1 true KR102320966B1 (ko) 2021-11-04

Family

ID=78521512

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210019891A KR102320966B1 (ko) 2021-02-15 2021-02-15 차세대염기서열분석법을 이용한 초위성체 마커 탐색 접근법

Country Status (1)

Country Link
KR (1) KR102320966B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160032723A (ko) * 2013-06-27 2016-03-24 10엑스 제노믹스, 인크. 샘플 처리를 위한 조성물 및 방법
CN105695572A (zh) * 2016-02-02 2016-06-22 中国水产科学研究院南海水产研究所 一种基于Indel和SSR位点技术大批量且高效开发分子标记的方法
KR102012596B1 (ko) 2018-08-20 2019-10-21 단국대학교 천안캠퍼스 산학협력단 비교유전체 방법을 이용한 한우 및 홀스테인 품종 판별용 분자 마커 조성물

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160032723A (ko) * 2013-06-27 2016-03-24 10엑스 제노믹스, 인크. 샘플 처리를 위한 조성물 및 방법
CN105695572A (zh) * 2016-02-02 2016-06-22 中国水产科学研究院南海水产研究所 一种基于Indel和SSR位点技术大批量且高效开发分子标记的方法
KR102012596B1 (ko) 2018-08-20 2019-10-21 단국대학교 천안캠퍼스 산학협력단 비교유전체 방법을 이용한 한우 및 홀스테인 품종 판별용 분자 마커 조성물

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Genet Mol Biol. 2017 Jul-Sep, 40(3): 676-687* *

Similar Documents

Publication Publication Date Title
JP5389638B2 (ja) 制限断片に基づく分子マーカーのハイスループットな検出
AU2010330936B2 (en) Restriction enzyme based whole genome sequencing
US20090247415A1 (en) Strategies for trranscript profiling using high throughput sequencing technologies
US9334532B2 (en) Complexity reduction method
Matsumura et al. SuperSAGE: a modern platform for genome-wide quantitative transcript profiling
JP2004504059A (ja) 転写された遺伝子を分析、及び同定するための方法、及びフインガープリント法
CN115198023B (zh) 一种海南黄牛液相育种芯片及其应用
CN112195238B (zh) 一种扩增pkd1基因的引物组及试剂盒
EP2510114B1 (en) Rna analytics method
JP5799484B2 (ja) Dnaマイクロアレイにおけるプローブ設計方法、当該方法により設計されたプローブを有するdnaマイクロアレイ
Karaca et al. Molecular markers in Salvia L.: past, present and future
KR102320966B1 (ko) 차세대염기서열분석법을 이용한 초위성체 마커 탐색 접근법
CN115843318B (zh) 基于全基因组分析与基因组编辑的植物物种鉴定方法与应用
KR102377678B1 (ko) 백수오와 이엽우피소 판별용 InDel 마커 및 이를 이용한 판별 방법
CN114746560A (zh) 改进甲基化多核苷酸结合的方法、组合物和系统
Singh et al. Polymerase chain reaction-based markers
US7695901B2 (en) Identification of poinsettia cultivars
JP3499795B2 (ja) 遺伝子解析法
JP7362901B2 (ja) 塩基のメチル化度の算出方法及びプログラム
CN112280884B (zh) 一种适用于玉米基因分型的InDel标记及其应用
WO2022168195A1 (ja) 遺伝情報解析システム、及び遺伝情報解析方法
US20240052339A1 (en) Rna probe for mutation profiling and use thereof
US20220145368A1 (en) Methods for noninvasive prenatal testing of fetal abnormalities
CN106566890B (zh) 油菜微卫星标记位点开发方法与微卫星标记位点内的微卫星标记的长度检测方法
Chuang et al. GABOLA: A Reliable Gap-Filling Strategy for de novo Chromosome-Level Assembly

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant