KR101930253B1 - 공통서열을 포함한 참조표준 게놈지도 구축 장치 및 방법 - Google Patents
공통서열을 포함한 참조표준 게놈지도 구축 장치 및 방법 Download PDFInfo
- Publication number
- KR101930253B1 KR101930253B1 KR1020170006310A KR20170006310A KR101930253B1 KR 101930253 B1 KR101930253 B1 KR 101930253B1 KR 1020170006310 A KR1020170006310 A KR 1020170006310A KR 20170006310 A KR20170006310 A KR 20170006310A KR 101930253 B1 KR101930253 B1 KR 101930253B1
- Authority
- KR
- South Korea
- Prior art keywords
- sequence
- scaffold
- genome
- clue
- super
- Prior art date
Links
Images
Classifications
-
- G06F19/26—
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2535/00—Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
- C12Q2535/122—Massive parallel sequencing
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- General Engineering & Computer Science (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
공통서열을 포함한 참조표준 게놈지도 구축 장치 및 방법이 개시된다. 본 발명은, NGS(next generation sequencing) 단서열 해독, PacBio 긴서열 해독, Illumnina TSLR 긴서열 해독 등의 시퀀싱 및 맵핑 기술을 활용하여 참조표준 게놈지도(reference genome map)를 구축하고, 공통 돌연변이(SNP, indel)들의 정보를 구축된 참조표준 게놈지도에 통합한다. 본 발명에 따르면, NGS(next generation sequencing) 단서열 해독, PacBio 긴서열 해독, Illumnina TSLR 긴서열 해독 등의 3개 이상의 시퀀싱 및 맵핑 기술을 활용하여 참조표준 게놈지도(reference genome map)를 구축함으로써 짧은 시간에 적은 비용으로 참조표준 게놈지도를 조립할 수 있고, 공통 돌연변이(SNP, indel)들의 정보를 구축된 참조표준 게놈지도에 통합함으로써, 게놈 상의 각 포지션에 집단 공통(consensus)의 서열을 보유하도록 적용할 수 있다.
Description
본 발명은 공통서열을 포함한 참조표준 게놈지도 구축 장치 및 방법에 관한 것으로, 더욱 상세하게는 NGS(next generation sequencing) 단서열 해독, PacBio 긴서열 해독, Illumnina TSLR 긴서열 해독 등의 시퀀싱 및 맵핑 기술을 활용하여 참조표준 게놈지도(reference genome map)를 구축하고, 공통 돌연변이(SNP, indel)들의 정보를 구축된 참조표준 게놈지도에 통합하는 하는 장치 및 방법에 관한 것이다.
게놈(genome)이란 한 개체의 유전 정보의 총합을 의미한다. 참조표준 게놈 지도(reference genome map)는 한 종 혹은 한 개체의 게놈 상의 모든 염기 서열 정보 및 이의 위치 정보를 의미한다. 서로 다른 종(species)은 진화적으로 서로 다른 게놈 서열을 보유하고 있으며, 같은 종의 다른 개체 간에도 유사도는 높지만 서로 다른 게놈 서열을 보유하고 있다. 예컨대, 인간과 침팬지는 진화적으로 조상을 공통으로 공유하고, 약 6백만년 전에 분기했다고 알려져 있는데, 게놈 서열 뿐만 아니라 게놈의 구조도 서로 상이(인간의 염색체 2번은 침팬지와 같은 유인원에서는 두 개의 염색체(2A, 2B)로 나뉘어져 존재함)하다. 또한, 인간 내에서도 구조 변이(structural variation) 및 카피수 변이(copy number variation)와 같이 서로 다른 게놈 구조가 존재한다. 2009년 12월경에는 중국의 BGI-Shenzen 연구소에서 NGS(next generation sequencing)를 이용하여 아시아인(중국인) 한 명과 흑인 한 명의 참조표준 게놈지도 초안(스캐폴드 서열)을 발표하였다. 그 결과 백인의 게놈 대비 아시아인 게놈의 다른 부분을 제시하였고, 이 결과는 각 인종별 게놈지도의 필요성을 의미한다.
참조표준 게놈지도는 다른 게놈 서열 분석을 함에 있어, 기준/표준 역할을 하는데, 전장 게놈 서열(whole genome re-sequencing) 방식에 의해 생성된 짧은 DNA 단편 서열의 위치를 참조표준 게놈지도에 맵핑(mapping)함으로써, 돌연변이를 발굴할 수 있게 된다. SNV(Single nucleotide variation)란 참조표준 게놈지도 대비 한 개의 염기가 다른 돌연변이이고, indel(insertion or deletion)은 짧은(~50bp) 염기 서열의 길이 차이가 발생하는 돌연변이를 의미한다. 이러한 SNV 및 indel은 개개인/개체별 차이를 만드는 원인이며, 집단의 특징, 질병 발생 등과 관련이 있어, 질병 예측 및 질환 마커 발굴 등에 매우 중요하다.
현재까지 공개된 모든 de novo 게놈 조립 방식으로 생성된 참조표준 게놈지도는 1명 또는 1개체로부터 추출한 시료를 주로 사용하여 조립되었는데, 특정 개인/개체는 개인/개체 특이적인 게놈 구조 및 서열을 보유하고 있다. 즉, 1명의 DNA 서열을 활용하여 게놈지도를 구축하는 경우, 집단의 대표성을 띄는 참조표준 게놈지도를 만들 수 없을 뿐만 아니라, 개인 특이적인 서열이 게놈지도 상에 존재하게 되어, 이후 전장 게놈 서열 데이터(whole genome re-sequencing data)를 분석하는데 있어, 많은 수의 불필요한 돌연변이들이 찾아지게 된다.
인간의 참조표준 게놈지도의 경우, 지금까지 약 10여개의 게놈지도가 발표되어 있다. 가장 품질이 좋고, 인간게놈 분석의 표준 역할을 하는 인간게놈지도(human reference; 현재 버전 GRCh38)의 경우, 약 50명의 참여자들의 시료를 대상으로 BAC(bacterial artificial chromosome) 클론을 제작하여, 다양한 인종 및 개인을 포함한 게놈지도를 구축하였으나, 실제로는 RPCI-11(또는 RP11)이라는 개인의 BAC 클론이 주로(74.3%) 사용되어 해독 및 조립되었다(아래의 [표 1] 참조). 또한, 인간 게놈지도는 여러명의 대표 서열로 조립한 것이 아니고, 각 게놈 포지션에는 1명의 BAC 클론만이 사용되었다.
Library | Fraction | Ethnicity |
CTB | 0.016 | Caucasian |
CTC | 0.021 | Caucasian |
CTD | 0.043 | East Asian |
RP1 | 0.028 | Caucasian |
RP3 | 0.016 | Caucasian |
RP4 | 0.022 | Caucasian |
RP5 | 0.027 | Caucasian |
RP11 | 0.743 | Caucasian/African |
total | 0.916 |
다른 인간 게놈지도의 경우에도 모두 1명의 DNA 시료를 활용하여 조립되었다. 아래의 [표 2]는 현재까지 발표된 주요 인간 참조표준 게놈지도이다. 더불어, 지금까지 공개된 여러 게놈지도들의 경우, 주로 1개 또는 2개 이내의 주요 게놈 실험 방식을 활용하였다는 특징이 있다.
게놈지도 | 게놈 해독 방식 | 참고논문 |
GRCh38 |
인간게놈지도. BAC라이브를 구축하여, Sanger 해독방식으로 게놈해독 및 조립됨 | Lander, E. S. et al. Initial sequencing and analysis of the human genome. Nature 409, 860921 (2001). |
AK1 |
PacBio 긴서열 및 BioNano 맵으로 조립 |
Seo, J. S. et al. De novo assembly and phasing of a Korean human genome. Nature 538, 243247 (2016). |
HX1 |
PacBio 긴서열 및 BioNano map으로 조립 |
Shi, L. et al. Long-read sequencing and de novo assembly of a Chinese genome. Nat. Commun. 7, 12065 (2016). |
ASM101398v1 |
PacBio 긴서열 및 BioNano map으로 조립 |
Pendleton, M. et al. Assembly and diploid architecture of an individual human genome via single-molecule technologies. Nat. Methods 12, 780786 (2015). |
CHM1_PacBio_r2 |
PacBio 긴서열로 조립 |
Chaisson, M. J. et al. Resolving the complexity of the human genome using single-molecule sequencing. Nature 517, 608611 (2015). |
HsapALLPATHS1 |
NGS 방식으로 해독 조립 |
Gnerre, S. et al. High-quality draft assemblies of mammalian genomes from massively parallel sequence data. Proc. Natl Acad. Sci. USA 108, 15131518(2011). |
HuRef |
생어해독방식으로 조립 |
Levy, S. et al. The diploid genome sequence of an individual human. PLoS Biol. 5, e254 (2007). |
Mongolian |
NGS 방식으로 해독 조립 |
Bai, H. et al. The genome of a Mongolian individual reveals the genetic imprints of Mongolians on modern human populations. Genome Biol. Evol. 6, 31223136 (2014). |
YH / YH_2.0 | NGS 방식으로 해독 조립 | Li, R. et al. De novo assembly of human genomes with massively parallel short read sequencing. Genome Res. 20, 265272 (2010). |
African | NGS 방식으로 해독 조립 |
Dewey et al. 논문(Dewey, F. E. et al. Phased whole-genome genetic risk in a family quartet using a major allele reference sequence. PLoS Genet. 7, e1002280 (2011).)에서는 기 공개된 인간게놈지도를 대상으로, 1000 Genome Project에서 생산한 수십 ~ 수백명의 전장 게놈 서열 데이터(whole genome re-sequencing data)로부터 규명한 SNV를 인간 게놈지도에 통합시켜, 인종별(백인, 흑인, 동아시아인)로 공통(consensus) 서열을 만들어서 발표를 하였다. 그러나, Dewey et al. 논문의 경우, 사용한 전장 게놈 서열 데이터(whole genome re-sequencing data)의 시퀀싱 배수(깊이)가 낮은 데이터를 활용하였고, 또한, 공통(consensus) 서열을 SNV에 대해서만 적용시켰다. 또한, Dewey et al. 논문의 내용은 de novo assembly에 대한 것이 아니고, 기존 발표된 게놈지도에 공통 서열을 적용시킨 방법에 대한 것이다. 이에 반면, 본 발명은 de novo assembly된 게놈지도에 high depth의 전장 게놈 서열 데이터(whole genome re-sequencing data)를 사용하여, SNV와 더불어 indel에 대해서도 집단의 공통 서열을 적용시켰다는 점에서 차이가 있다.
본 발명은 현재까지 발표된 다양한 게놈 실험 방식(NGS 단서열 해독, PacBio 긴서열 해독, Illumina TSLR 긴서열 해독, OpGen whole genome maps, BioNano maps)을 동시에 적용하여, 고품질의 1명의 참조표준 게놈지도를 구축하는 방법에 대한 것이다. 그리고, 본 발명은 집단의 공통 서열을 보유하는 참조표준 게놈지도를 구축하기 위해, 많은 수의 high-depth 전장 게놈 서열 데이터(whole genome re-sequencing data)로부터 추출된 돌연변이(SNV, indel)을 통합시켜 집단공통 참조표준 게놈지도를 구축하는 방법에 대한 것이다.
본 발명이 이루고자 하는 기술적 과제는, NGS(next generation sequencing) 단서열 해독, PacBio 긴서열 해독, Illumnina TSLR 긴서열 해독 등의 시퀀싱 및 맵핑 기술을 활용하여 참조표준 게놈지도(reference genome map)를 구축하고, 공통 돌연변이(SNP, indel)들의 정보를 구축된 참조표준 게놈지도에 통합하는 공통서열을 포함한 참조표준 게놈지도 구축 장치 및 방법을 제공하는 데 있다.
상기의 기술적 과제를 달성하기 위한 본 발명에 따른 공통서열을 포함한 참조표준 게놈지도 구축 장치는, NGS(next generation sequencing)를 이용하여 미리 설정된 값보다 작은 단편 크기(insert size)를 가지는 단서열과 상기 미리 설정된 값보다 큰 단편 크기(insert size)를 가지는 긴짝서열을 생산하는 서열 생산부; 상기 단서열과 상기 긴짝서열에서 미리 설정된 리드(read)를 필터링하는 서열 필터링부; 드 부루인(De Bruijn) 그래프를 이용하여 상기 단서열을 기반으로 컨티그(contig)를 조립하는 컨티그 조립부; 상기 컨티그와 상기 긴짝서열을 기반으로 스캐폴드(scaffold)를 조립하는 스캐폴드 조립부; 단일 분자 지도(single molecule map)와 상기 스캐폴드(scaffold)를 기반으로 제한 효소(restriction enzyme) 비교를 통해 슈퍼-스캐폴드(super-scaffold)를 조립하고, PacBio 긴서열 해독 방법과 Illumina TSLR 합성 긴서열 해독 방법을 이용하여 상기 슈퍼-스캐폴드(super-scaffold) 상의 갭(gap)을 메꾸며, 상기 슈퍼-스캐폴드(super-scaffold)의 오조립 영역을 검증하는 슈퍼-스캐폴드 조립부; 및 상기 슈퍼-스캐폴드(super-scaffold)의 위치와 방향(strand) 정보를 기반으로 염색체(chromosome) 서열을 조립하는 염색체 서열 조립부;를 포함한다.
상기 컨티그 조립부는, 상기 단서열을 기반으로 K-mer 분석을 수행하여 K-mer 빈도 테이블(frequency table)을 획득하고, 상기 K-mer 빈도 테이블(frequency table)을 이용하여 상기 단서열의 에러(error)를 보정하며, 상기 K-mer 빈도 테이블(frequency table)과 상기 드 부루인(De Bruijn) 그래프를 이용하여 에러 보정된 상기 단서열을 기반으로 상기 컨티그(contig)를 조립할 수 있다.
상기 서열 필터링부는, 상기 단서열과 상기 긴짝서열에서 중복된 리드(read)를 필터링하고, 상기 단서열과 상기 긴짝서열에서 어댑터(adapter) 서열이 포함된 리드(read)를 필터링하며, 상기 단서열과 상기 긴짝서열에서 퀄리티 점수(quality score) 값이 미리 설정된 값보다 작은 서열을 필터링하고, 상기 긴짝서열에서 접합 어댑터(junction adapter)가 포한된 리드(read)를 필터링하며, 상기 단서열과 상기 긴짝서열이 미리 설정된 길이를 가지도록 자를(trimming) 수 있다.
상기 스캐폴드 조립부는, 상기 컨티그에 상기 긴짝서열을 정렬(alignment)하여 실제 단편 크기(insert size)를 측정하고, 상기 실제 단편 크기(insert size)를 이용하여 상기 컨티그와 상기 긴짝서열을 기반으로 상기 스캐폴드(scaffold)를 조립하며, 상기 스캐폴드(scaffold) 상의 갭(gap)을 메꿀 수 있다.
상기 슈퍼-스캐폴드 조립부는, 상기 제한 효소(restriction enzyme)를 선택하고, 옵티컬 맵핑(Optical mapping)에 의해 생성된 상기 단일 분자 지도(single molecule map)와 상기 스캐폴드(scaffold)를 기반으로 선택된 상기 제한 효소(restriction enzyme) 패턴의 비교를 통해 상기 슈퍼-스캐폴드(super-scaffold)를 조립할 수 있다.
상기 슈퍼-스캐폴드 조립부는, 나노채널-기반 게놈 맵핑 데이터(nanochannel-based genome mapping data)를 이용하여 상기 슈퍼-스캐폴드(super-scaffold)의 오조립 영역을 검증할 수 있다.
상기 염색체 서열 조립부는, 인간게놈지도(GRCh38)에 정렬(align)된 상기 슈퍼-스캐폴드(super-scaffold)의 위치와 방향(strand) 정보를 기반으로 상기 염색체(chromosome) 서열을 조립할 수 있다.
전장 게놈 서열 데이터(whole genome re-sequencing data)를 이용하여 상기 염색체(chromosome) 서열을 치환하는 서열 치환부를 더 포함할 수 있다.
상기의 기술적 과제를 달성하기 위한 본 발명에 따른 공통서열을 포함하는 참조표준 게놈지도 구축 방법은, 참조표준 게놈지도 구축 장치의 게놈지도 구축 방법으로서, NGS(next generation sequencing)를 이용하여 미리 설정된 값보다 작은 단편 크기(insert size)를 가지는 단서열과 상기 미리 설정된 값보다 큰 단편 크기(insert size)를 가지는 긴짝서열을 생산하는 단계; 상기 단서열과 상기 긴짝서열에서 미리 설정된 리드(read)를 필터링하는 단계; 드 부루인(De Bruijn) 그래프를 이용하여 상기 단서열을 기반으로 컨티그(contig)를 조립하는 단계; 상기 컨티그와 상기 긴짝서열을 기반으로 스캐폴드(scaffold)를 조립하는 단계; 단일 분자 지도(single molecule map)와 상기 스캐폴드(scaffold)를 기반으로 제한 효소(restriction enzyme) 비교를 통해 슈퍼-스캐폴드(super-scaffold)를 조립하는 단계; PacBio 긴서열 해독 방법과 Illumina TSLR 합성 긴서열 해독 방법을 이용하여 상기 슈퍼-스캐폴드(super-scaffold) 상의 갭(gap)을 메꾸는 단계; 상기 슈퍼-스캐폴드(super-scaffold)의 오조립 영역을 검증하는 단계; 및 상기 슈퍼-스캐폴드(super-scaffold)의 위치와 방향(strand) 정보를 기반으로 염색체(chromosome) 서열을 조립하는 단계;를 포함한다.
상기 컨티그(contig) 조립 단계는, 상기 단서열을 기반으로 K-mer 분석을 수행하여 K-mer 빈도 테이블(frequency table)을 획득하는 단계; 상기 K-mer 빈도 테이블(frequency table)을 이용하여 상기 단서열의 에러(error)를 보정하는 단계; 및 상기 K-mer 빈도 테이블(frequency table)과 상기 드 부루인(De Bruijn) 그래프를 이용하여 에러 보정된 상기 단서열을 기반으로 상기 컨티그(contig)를 조립하는 단계;를 포함할 수 있다.
상기 리드(read) 필터링 단계는, 상기 단서열과 상기 긴짝서열에서 중복된 리드(read)를 필터링하는 단계; 상기 단서열과 상기 긴짝서열에서 어댑터(adapter) 서열이 포함된 리드(read)를 필터링하는 단계; 상기 단서열과 상기 긴짝서열에서 퀄리티 점수(quality score) 값이 미리 설정된 값보다 작은 서열을 필터링하는 단계; 상기 긴짝서열에서 접합 어댑터(junction adapter)가 포한된 리드(read)를 필터링하는 단계; 및 상기 단서열과 상기 긴짝서열이 미리 설정된 길이를 가지도록 자르는(trimming) 단계;를 포함할 수 있다.
상기 스캐폴드(scaffold) 조립 단계는, 상기 컨티그에 상기 긴짝서열을 정렬(alignment)하여 실제 단편 크기(insert size)를 측정하는 단계; 상기 실제 단편 크기(insert size)를 이용하여 상기 컨티그와 상기 긴짝서열을 기반으로 상기 스캐폴드(scaffold)를 조립하는 단계; 및 상기 스캐폴드(scaffold) 상의 갭(gap)을 메꾸는 단계;를 포함할 수 있다.
상기 슈퍼-스캐폴드(super-scaffold) 조립 단계는, 상기 제한 효소(restriction enzyme)를 선택하는 단계; 및 옵티컬 맵핑(Optical mapping)에 의해 생성된 상기 단일 분자 지도(single molecule map)와 상기 스캐폴드(scaffold)를 기반으로 선택된 상기 제한 효소(restriction enzyme) 패턴의 비교를 통해 상기 슈퍼-스캐폴드(super-scaffold)를 조립하는 단계;를 포함할 수 있다.
상기 슈퍼-스캐폴드(super-scaffold) 검증 단계는, 나노채널-기반 게놈 맵핑 데이터(nanochannel-based genome mapping data)를 이용하여 상기 슈퍼-스캐폴드(super-scaffold)의 오조립 영역을 검증하는 것으로 이루어질 수 있다.
상기 염색체(chromosome) 서열 조립 단계는, 인간게놈지도(GRCh38)에 정렬(align)된 상기 슈퍼-스캐폴드(super-scaffold)의 위치와 방향(strand) 정보를 기반으로 상기 염색체(chromosome) 서열을 조립하는 것으로 이루어질 수 있다.
전장 게놈 서열 데이터(whole genome re-sequencing data)를 이용하여 상기 염색체(chromosome) 서열을 치환하는 단계를 더 포함할 수 있다.
상기의 기술적 과제를 달성하기 위한 본 발명에 따른 컴퓨터 프로그램은 컴퓨터로 읽을 수 있는 기록 매체에 저장되어 상기한 방법 중 어느 하나를 컴퓨터에서 실행시킨다.
본 발명에 따른 공통서열을 포함한 참조표준 게놈지도 구축 장치 및 방법에 의하면, NGS(next generation sequencing) 단서열 해독, PacBio 긴서열 해독, Illumnina TSLR 긴서열 해독 등의 3개 이상의 시퀀싱 및 맵핑 기술을 활용하여 참조표준 게놈지도(reference genome map)를 구축함으로써, 짧은 시간에 적은 비용으로 참조표준 게놈지도를 조립할 수 있다. 아울러, 공통 돌연변이(SNP, indel)들의 정보를 구축된 참조표준 게놈지도에 통합함으로써, 게놈 상의 각 포지션에 집단 공통(consensus)의 서열을 보유하도록 적용할 수 있다.
도 1은 본 발명의 바람직한 실시예에 따른 공통서열을 포함한 참조표준 게놈지도 구축 장치를 설명하기 위한 블록도이다.
도 2는 본 발명의 바람직한 실시예에 따른 참조표준 게놈지도 구축 과정의 일례를 설명하기 위한 도면이다.
도 3은 본 발명의 바람직한 실시예에 따른 슈퍼-스캐폴드의 검증 결과의 일례를 설명하기 위한 도면이다.
도 4는 본 발명의 바람직한 실시예에 따른 염색체 서열의 조립 결과의 일례를 설명하기 위한 도면이다.
도 5는 본 발명의 바람직한 실시예에 따른 참조표준 게놈 지도의 효과를 설명하기 위한 그래프이다.
도 6은 본 발명의 바람직한 실시예에 따른 공통서열을 포함한 참조표준 게놈지도 구축 방법을 설명하기 위한 흐름도이다.
도 7은 도 6에 도시한 서열 필터링 단계를 보다 자세히 나타낸 흐름도이다.
도 8은 도 6에 도시한 컨티그 조립 단계를 보다 자세히 나타낸 흐름도이다.
도 9는 도 6에 도시한 스캐폴드 조립 단계를 보다 자세히 나타낸 흐름도이다.
도 10은 도 6에 도시한 슈퍼-스캐폴드 조립 단계를 보다 자세히 나타낸 흐름도이다.
도 2는 본 발명의 바람직한 실시예에 따른 참조표준 게놈지도 구축 과정의 일례를 설명하기 위한 도면이다.
도 3은 본 발명의 바람직한 실시예에 따른 슈퍼-스캐폴드의 검증 결과의 일례를 설명하기 위한 도면이다.
도 4는 본 발명의 바람직한 실시예에 따른 염색체 서열의 조립 결과의 일례를 설명하기 위한 도면이다.
도 5는 본 발명의 바람직한 실시예에 따른 참조표준 게놈 지도의 효과를 설명하기 위한 그래프이다.
도 6은 본 발명의 바람직한 실시예에 따른 공통서열을 포함한 참조표준 게놈지도 구축 방법을 설명하기 위한 흐름도이다.
도 7은 도 6에 도시한 서열 필터링 단계를 보다 자세히 나타낸 흐름도이다.
도 8은 도 6에 도시한 컨티그 조립 단계를 보다 자세히 나타낸 흐름도이다.
도 9는 도 6에 도시한 스캐폴드 조립 단계를 보다 자세히 나타낸 흐름도이다.
도 10은 도 6에 도시한 슈퍼-스캐폴드 조립 단계를 보다 자세히 나타낸 흐름도이다.
이하에서 첨부한 도면을 참조하여 본 발명에 따른 공통서열을 포함한 참조표준 게놈지도 구축 장치 및 방법의 바람직한 실시예에 대해 상세하게 설명한다.
먼저, 도 1 내지 도 4를 참조하여 본 발명의 바람직한 실시예에 따른 공통서열을 포함한 참조표준 게놈지도 구축 장치에 대하여 설명한다.
도 1은 본 발명의 바람직한 실시예에 따른 공통서열을 포함한 참조표준 게놈지도 구축 장치를 설명하기 위한 블록도이고, 도 2는 본 발명의 바람직한 실시예에 따른 참조표준 게놈지도 구축 과정의 일례를 설명하기 위한 도면이며, 도 3은 본 발명의 바람직한 실시예에 따른 슈퍼-스캐폴드의 검증 결과의 일례를 설명하기 위한 도면이고, 도 4는 본 발명의 바람직한 실시예에 따른 염색체 서열의 조립 결과의 일례를 설명하기 위한 도면이다.
도 1을 참조하면, 본 발명의 바람직한 실시예에 따른 공통서열을 포함한 참조표준 게놈지도 구축 장치(100)(이하 '게놈지도 구축 장치'라 한다)는 NGS(next generation sequencing) 단서열 해독, PacBio 긴서열 해독, Illumnina TSLR 긴서열 해독 등의 3개 이상의 시퀀싱 및 맵핑 기술을 활용하여 참조표준 게놈지도(reference genome map)를 구축한다. 그리고, 게놈지도 구축 장치(100)는 공통 돌연변이(SNP, indel)들의 정보를 구축된 참조표준 게놈지도에 통합할 수 있다.
이를 위해, 게놈지도 구축 장치(100)는 서열 생산부(110), 서열 필터링부(120), 컨티그 조립부(130), 스캐폴드 조립부(140), 슈퍼-스캐폴드 조립부(150), 염색체 서열 조립부(160) 및 서열 치환부(170)를 포함할 수 있다.
서열 생산부(110)는 NGS(next generation sequencing)를 이용하여 미리 설정된 값보다 작은 단편 크기(insert size)를 가지는 단서열(short insert[short paired-end])과 미리 설정된 값보다 큰 단편 크기(insert size)를 가지는 긴짝서열(long insert[long-mate pair])을 생산한다. 여기서, 미리 설정된 값은 1Kb(단편 크기)일 수 있다. 즉, 서열 생산부(110)는 1Kb 보다 작은 단편 크기(insert size)를 가지는 단서열과 1Kb 보다 큰 단편 크기(insert size)를 가지는 긴짝서열을 생산할 수 있다.
다시 설명하면, 도 2의 (a)에 도시된 바와 같이, 서열 생산부(110)는 NGS 방식을 이용하여 게놈지도의 초안(scaffold)을 구축하기 위해 단서열(short insert [short paired-end], insert size 1 Kb 미만)과 긴짝서열(long insert [long-mate pair], insert size 1 Kb 이상)을 모두 생산할 수 있다. 이때, DNA 라이브러리 제작은, 단서열의 경우 Illumina TruSeq® DNA Sample Preparation Guide. July 2012, 긴짝서열의 경우 Illumina Nextera® Mate Pair Sample Preparation Guide, January 2013에 기재된 방식을 활용할 수 있다. 본 발명에서는 단서열의 경우 단편 크기(insert size) 기준 170bp, 500bp, 700bp의 라이브러리, 긴짝서열의 경우 단편 크기(insert size) 기준 2Kb, 5Kb, 10Kb, 15Kb, 20Kb 라이브러리가 구축 및 해독되었다. 이에 따른 NGS 서열 해독 결과는 아래의 [표 3]과 같다.
Type | Insert size | Read length (bp) | Number of read pairs | Total data (Gb) | Sequence depth (X) | |
Short-insert size libraries |
170bp |
101 |
254,562,947 | 51.42 | 16.59 | 48.69 |
246,624,330 | 49.82 | 16.07 | ||||
246,007,078 | 49.70 | 16.03 | ||||
500bp |
101 |
246,418,836 | 49.78 | 16.06 | 46.71 |
|
230,109,465 | 46.48 | 14.99 | ||||
240,361,539 | 48.55 | 15.66 | ||||
700bp |
101 |
207,193,678 | 41.85 | 13.50 | 39.17 |
|
188,159,956 | 38.01 | 12.26 | ||||
205,873,335 | 41.59 | 13.41 | ||||
Long-mate pair libraries |
2Kb |
101 |
196,290,337 | 39.65 | 12.79 | 38.22 |
232,858,099 | 47.04 | 15.17 | ||||
157,507,662 | 31.82 | 10.26 | ||||
5Kb |
101 |
152,201,289 | 30.74 | 9.92 | 32.81 |
|
177,874,430 | 35.93 | 11.59 | ||||
173,383,733 | 35.02 | 11.30 | ||||
10Kb |
101 |
205,215,277 | 41.45 | 13.37 | 40.05 |
|
209,859,354 | 42.39 | 13.67 | ||||
199,617,521 | 40.32 | 13.01 | ||||
15Kb |
101 |
156,336,183 | 31.58 | 10.19 | 30.65 |
|
166,036,249 | 33.54 | 10.82 | ||||
147,927,209 | 29.88 | 9.64 | ||||
20Kb |
101 |
181,506,276 | 36.66 | 11.83 | 34.72 |
|
177,434,679 | 35.84 | 11.56 | ||||
173,929,946 | 35.13 | 11.33 | ||||
Total | 4,773,289,408 | 964.19 | 311.02 | 311.02 |
서열 필터링부(120)는 단서열과 긴짝서열에서 미리 설정된 리드(read)를 필터링한다. 여기서, 미리 설정된 리드(read)는 중복된 리드(read), 어댑터(adapter) 서열이 포함된 리드(read), 퀄리티 점수(quality score) 값이 미리 설정된 값보다 작은 서열, 접합 어댑터(junction adapter)가 포한된 리드(read) 등을 말한다.
다시 설명하면, 서열 필터링부(120)는 Illumina 해독 기계에서 생산된 단서열과 긴짝서열로부터 정확한 표준 게놈지도를 얻기 위해, 해독된 단서열 및 긴짝서열 중 PCR 과정에서 생기는 중복된 리드(read)와 어댑터(adapter)가 포함된 리드(read), 퀄리티(quality)가 낮은 리드(read) 등을 제거할 수 있다. 이와 같은 과정을 위해 본 발명에서는 각각 PrinSeq, SOAPfilter, cutadapt 프로그램들이 사용되었다.
즉, 서열 필터링부(120)는 단서열과 긴짝서열에서 중복된 리드(read)를 필터링할 수 있다. 다시 설명하면, 단서열과 긴짝서열의 라이브러리제작 과정 중, 서열 해독을 용이하게 하기 위해 PCR을 이용하여 DNA 조각들을 증폭하는 과정이 있다. 이 과정에서 라이브러리에 동일한 서열이 중복으로 서열 해독이 되어 정확한 참조표준 게놈지도를 만드는데 불필요한 요소로 작용되게 된다. 이러한 중복된 리드(read)를 제거하기 위해 서열 필터링부(120)는 필터링을 수행한다. 이때, 본 발명에서 사용된 프로그램은 PrinSeq(lite-0.20.4)이다.
그리고, 서열 필터링부(120)는 단서열과 긴짝서열에서 어댑터(adapter) 서열이 포함된 리드(read)를 필터링할 수 있다. 다시 설명하면, 단서열과 긴짝서열의 서열 해독 과정 중 리드(read)에 어댑터(adapter) 서열이 (Forward adapter : GATCGGAAGAGCACACGTCTGAACTCCAGTCAC, Reverse adapter : GATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT) 포함된 리드(read)가 존재하며, 정확한 참조표준 게놈지도 작성을 위해 서열 필터링부(120)는 이와 같은 리드(read)들을 제거한다. 이때, 본 발명에서 사용된 프로그램은 SOAPfilter이다.
또한, 서열 필터링부(120)는 단서열과 긴짝서열에서 퀄리티 점수(quality score) 값이 미리 설정된 값보다 작은 서열을 필터링할 수 있다. 다시 설명하면, 해독된 단서열과 긴짝서열은 각 서열마다 해당하는 퀄리티 점수(quality score) 값을 가지게 된다. 정확도 99% 이상의 서열을 얻기 위해 컬리티 점수(Quality Score) 20을 기준으로 퀄리티 점수(Quality Score) 값이 리드(read)당 평균 20 미만일 때, 서열 필터링부(120)는 해당 서열을 필터링한다. 또한, 각 리드(read)에 포함된 N base(ambiguous base) 개수의 비율이 해당 리드(read) 길이의 5% 이상일 때, 서열 필터링부(120)는 해당 서열을 필터링한다. 이때, 본 발명에서 사용된 프로그램은 PrinSeq(lite-0.20.4)이다.
그리고, 서열 필터링부(120)는 긴짝서열에서 접합 어댑터(junction adapter)가 포한된 리드(read)를 필터링할 수 있다. 다시 설명하면, 해독된 긴짝서열의 경우 실험 과정상 접합 어댑터(junction adapter)가 랜덤하게 서열에 포함될 수 있다. 서열 필터링부(120)는 접합 어댑터(junction adapter)가 포함된 리드(read)를 잘라(trimming) 참조표준 게놈지도 오조립에 영향을 줄 수 있는 요소를 제거한다. 이때, 본 발명에서 사용된 프로그램은 cutadapt(v1.1)이다.
또한, 서열 필터링부(120)는 단서열과 상기 긴짝서열이 미리 설정된 길이를 가지도록 자를(trimming) 수 있다. 다시 설명하면, 서열 필터링부(120)는 서열 해독기의 특성상, 해독된 서열의 5' 말단 및 3' 말단 부분의 서열 해독 퀄리티(quality)가 떨어지는 부분과 양 말단에 나타나는 Poly-A tail과 같은 서열 조립에 영향을 줄 수 있는 부분을 일괄적으로 잘라낸다. 예컨대, 단서열의 경우 90bp가 되도록 5' 말단 부분의 3base 및 3' 말단 부분의 8base를 잘라(trimming)내고, 긴짝서열의 경우 3' 말단 부분을 기준으로 리드(read) 길이가 49bp가 되도록 다 잘라(trimming)낸다. 이때, 본 발명에서 사용된 프로그램은 자체적으로 개발한 script를 사용하였다.
이에 따른 서열 필터링 결과는 아래의 [표 4]와 같다.
Type | Insert size | Read length (bp) | Number of read pairs | Total data (Gb) | Sequence Depth (X) | |
Short-insert size libraries |
170bp |
90 |
238,901,578 | 43.00 | 13.87 | 40 |
225,934,916 | 40.67 | 13.12 | ||||
224,145,725 | 40.35 | 13.01 | ||||
500bp |
90 |
220,100,704 | 39.62 | 12.78 | 37.57 |
|
207,716,033 | 37.39 | 12.06 | ||||
219,165,329 | 39.45 | 12.73 | ||||
700bp |
90 |
189,043,000 | 34.03 | 10.98 | 32.24 |
|
173,545,699 | 31.24 | 10.08 | ||||
192,535,557 | 34.66 | 11.18 | ||||
Long-mate pair libraries |
2Kb |
49 |
102,368,796 | 10.03 | 3.24 | 9.64 |
118,485,351 | 11.61 | 3.75 | ||||
83,704,400 | 8.20 | 2.65 | ||||
5Kb |
49 |
74,199,538 | 7.27 | 2.35 | 8.08 |
|
93,060,115 | 9.12 | 2.94 | ||||
88,156,446 | 8.64 | 2.79 | ||||
10Kb |
49 |
52,521,514 | 5.15 | 1.66 | 5.03 |
|
54,759,429 | 5.37 | 1.73 | ||||
51,874,811 | 5.08 | 1.64 | ||||
15Kb |
49 |
60,904,413 | 5.97 | 1.93 | 5.3 |
|
55,631,632 | 5.45 | 1.76 | ||||
51,042,581 | 5.00 | 1.61 | ||||
20Kb |
49 |
20,374,949 | 2.00 | 0.64 | 2.08 |
|
26,561,512 | 2.60 | 0.84 | ||||
19,032,195 | 1.87 | 0.60 | ||||
Total | 2,843,766,223 | 433.77 | 139.94 | 139.94 |
컨티그 조립부(130)는 드 부루인(De Bruijn) 그래프를 이용하여 단서열을 기반으로 컨티그(contig)를 조립한다.
즉, 컨티그 조립부(130)는 단서열을 기반으로 K-mer 분석을 수행하여 K-mer 빈도 테이블(frequency table)을 획득한다. 다시 설명하면, 정확한 참조표준 게놈지도 작성을 위해서 해독된 단서열을 이용하여 게놈의 크기를 측정한다. 게놈 크기 측정을 위해서는 K-mer 분석을 수행하여야 하는데, 정해진 K 값에 따라 단서열의 리드(read)들을 K 값의 길이만큼 쪼개서, 쪼개진 조각의 개수를 이용하여 K-mer 빈도 테이블(frequency table)을 획득하고 게놈 크기를 측정한다. K-mer=17일 경우, A, T, G, C가 우연히 존재할 확률인 4^17, 약 16Gb의 게놈 크기까지 분석이 되는데, 시퀀싱 반복 배수가 충분한 경우 K-mer 크기가 클수록 분석의 정확도가 올라간다. 본 발명에 따른 참조표준 게놈지도 작성과정에서는 더 정확한 결과를 얻기 위해, K-mer=23을 이용하여 분석하였다. 이때, 본 발명에서 사용된 프로그램은 SOAPec이다.
그리고, 컨티그 조립부(130)는 K-mer 빈도 테이블(frequency table)을 이용하여 상기 단서열의 에러(error)를 보정한다. 다시 설명하면, 정확한 컨티그(contig) 조립을 위해 K-mer 분석 과정에서 생성된 K-mer 빈도 테이블(frequency table)을 이용하여, 배수(depth)가 낮은 부분의 K-mer 조각들에 해당되는 단서열은 이형 접합적(heterozygous)이거나, 시퀀싱 과정의 에러(error)로 생각할 수 있기에 보정(correction)한다. 이때, 본 발명에서는 단서열로 해독한 170bp, 500bp, 700bp 라이브러리에 각각 적용하였으며, 사용된 프로그램은 SOAPec이다. 이에 따른 에러 보정(error correction) 결과는 아래의 [표 5]와 같다.
Insert Size | Library |
Error corrected
bases ratio |
170bp |
KR01_PE_170_L1_1 | 0.0569% |
KR01_PE_170_L1_2 | 0.0640% | |
KR01_PE_170_L2_1 | 0.0725% | |
KR01_PE_170_L2_2 | 0.1675% | |
KR01_PE_170_L3_1 | 0.0716% | |
KR01_PE_170_L3_2 | 0.1715% | |
500bp |
KR01_PE_500_L1_1 | 0.0729% |
KR01_PE_500_L1_2 | 0.2081% | |
KR01_PE_500_L2_1 | 0.0684% | |
KR01_PE_500_L2_2 | 0.1718% | |
KR01_PE_500_L3_1 | 0.0840% | |
KR01_PE_500_L3_2 | 0.1615% | |
700bp |
KR01_PE_700_L1_1 | 0.1074% |
KR01_PE_700_L1_2 | 0.2794% | |
KR01_PE_700_L2_1 | 0.1182% | |
KR01_PE_700_L2_2 | 0.2401% | |
KR01_PE_700_L3_1 | 0.0757% | |
KR01_PE_700_L3_2 | 0.2625% |
또한, 컨티그 조립부(130)는 K-mer 빈도 테이블(frequency table)과 드 부루인(De Bruijn) 그래프를 이용하여 에러 보정(error correction)된 단서열을 기반으로 컨티그(contig)를 조립한다. 다시 설명하면, 도 2의 (b)에 도시된 바와 같이, 컨티그 조립부(130)는 서열 필터링 및 에러 보정(error correction)된 단서열을 이용하여 컨티그(contif)를 조립한다. 이때, 본 발명에서는 여러 조립 알고리듬 중 드 부루인(de Bruijn) 그래프 방식을 이용한 프로그램인 SOAPdenovo2(r240)를 사용하여 컨티그(contig)를 조립한다. 즉, 총 두 가지의 과정(pregraph 과정 : K-mer 값에 따라 K-mer의 빈도 테이블(frequency table)을 생성함 / contig 과정 : ㅂ비빈도 테이블(frequency table) 및 드 부루인(de Bruijn) 그래프 알고리듬을 이용하여 컨티그(contig)를 생성함)을 거쳐서 컨티그(contig)가 조립된다. 최적의 K-mer 값을 찾기 위해, 29, 39, 49, 55, 59, 63, 69, 75, 79의 K-mer 값에 대해 컨티그(contig) 조립을 수행(다양한 K-mer 값에 따라 조립 결과를 확인 후, K=55를 활용하여 이후 분석을 수행함)한다. 이에 따른 컨티그(contig) 조립 결과는 아래의 [표 6]과 같다.
K-mer size | All sequences | Longer than 100 bp | ||||
Total size | Longest | N50 | Total size | Longest | N50 | |
29 | 5,187,304,717 | 16,946 | 90 | 2,275,359,750 | 16,946 | 1,099 |
39 | 4,459,796,947 | 35,726 | 300 | 2,529,816,579 | 35,726 | 1,939 |
49 | 4,066,593,737 | 51,838 | 980 | 2,740,134,913 | 51,838 | 2,375 |
55 | 3,860,731,497 | 44,789 | 1,447 | 2,915,054,629 | 44,789 | 2,559 |
59 | 3,744,446,380 | 48,982 | 1,773 | 2,990,197,206 | 48,982 | 2,735 |
63 | 3,641,677,654 | 54,683 | 2,113 | 3,029,961,853 | 54,683 | 2,964 |
69 | 3,524,281,519 | 54,689 | 2,589 | 3,072,247,309 | 54,689 | 3,295 |
75 | 3,429,622,648 | 62,488 | 2,918 | 3,097,380,667 | 62,488 | 3,466 |
79 | 3,343,414,611 | 80,399 | 2,789 | 3,086,359,621 | 80,399 | 3,187 |
스캐폴드 조립부(140)는 컨티그(contig)와 긴짝서열을 기반으로 스캐폴드(scaffold)를 조립한다.
즉, 스캐폴드 조립부(140)는 컨티그(contig)에 긴짝서열을 정렬(alignment)하여 실제 단편 크기(insert size)를 측정한다. 다시 설명하면, 해독된 단서열, 긴짝서열의 실제 단편 크기(insert size)를 구하기 위해 앞서 생성된 컨티그(contig)에 단서열과 긴짝서열을 정렬(alignment)하여 각 라이브러리별 실제 단편 크기(insert size)의 평균과 표준 편차를 측정한다. 이때, 본 발명에서 사용된 정렬(alignment) 프로그램은 Burrows-Wheeler Aligner(BWA, v0.7.7)와 Samtools(v.0.1.19)이다. 생성된 BAM 파일의 9번째 컬럼에 해당하는 값(1번 리드(read)와 2번 리드(read) 간의 정렬(alignment) 거리)을 이용하여 각 라이브러리별 단편 크기(insert size)를 측정한다. 이때, 본 발명에서 사용된 프로그램은 자체적으로 개발한 script를 사용하였다.
그리고, 스캐폴드 조립부(140)는 실제 단편 크기(insert size)를 이용하여 컨티그(contig)와 긴짝서열을 기반으로 스캐폴드(scaffold)를 조립한다. 다시 설명하면, 도 2의 (c)에 도시된 바와 같이, 앞서 생성된 컨티그(contig) 서열과 단서열 및 긴짝서열, 그리고 앞서 계산된 단편 크기(insert size)의 값을 이용하여 스캐폴드(scaffold)를 조립한다. 이때, 입력해야 하는 단편 크기(insert size) 값의 경우, 단편 크기(insert size) 평균의 20%에 해당하는 값을 표준 편차로 사용하였다. 스캐폴드 조립부(140)는 총 두 가지 과정(map 과정 : 컨티그(contig) 서열에 단서열 및 긴짝서열을 정렬(alignment)함 / scaff 과정 : 컨티그(contig)에 정렬(alignment)된 결과와 단편 크기(insert size)의 정보를 이용하여 스캐폴드(scaffold)를 조립)을 거쳐서 스캐폴드(scaffold)를 조립한다. 이때, 본 발명에서 사용된 프로그램은 SOAPdenovo2(r240)이다. 이에 따른 스캐폴드(scaffold) 조립 결과는 아래의 [표 7]과 같다.
Scaffold | ||
Size (Mb) | No. | |
N90 | 3.09 | 178 |
N80 | 6.45 | 116 |
N70 | 10.45 | 81 |
N60 | 16.16 | 59 |
N50 | 19.85 | 42 |
Longest | 81.91 | - |
Gaps | 1.65 % | - |
Total (≥ 200bp) | 2.92 Gb | 68,170 |
Total (≥10 Kb) | 2.88 Gb | 1,243 |
또한, 스캐폴드 조립부(140)는 스캐폴드(scaffold) 상의 갭(gap)을 메꾼다. 다시 설명하면, 생성된 스캐폴드(scaffold) 서열은 단서열 및 긴짝서열의 단편 크기(insert size) 만큼의 거리를 채우지 못한 부분(N base)이 다수 존재하게 되는데, 이 부분을 갭(gap)이라고 한다. 이러한 갭(gap) 부분의 서열을 채우기 위해 gap closing 작업을 2번 반복해서 수행한다. 이때, 본 발명에서 사용된 프로그램은 gapcloser이다.
슈퍼-스캐폴드 조립부(150)는 단일 분자 지도(single molecule map)와 스캐폴드(scaffold)를 기반으로 슈퍼-스캐폴드(super-scaffold)를 조립한다. 다시 설명하면, 스캐폴드(scaffold)를 슈퍼-스캐폴드(super-scaffold)로 확장시키기 위해, OpGen사의 전장 게놈 옵티컬 맵핑 데이터(whole genome optical mapping data)를 획득한다.
즉, 슈퍼-스캐폴드 조립부(150)는 단일 분자 지도(single molecule map)와 상기 스캐폴드(scaffold)를 기반으로 제한 효소(restriction enzyme) 비교를 통해 슈퍼-스캐폴드(super-scaffold)를 조립한다.
이때, 슈퍼-스캐폴드 조립부(150)는 제한 효소(restriction enzyme)를 선택할 수 있다. 다시 설명하면, 조립된 스캐폴드(scaffold) 서열을 대상으로 적합한 제한 효소(restriction enzyme)를 선택한다. 이때, 본 발명에서는 여러 제한효소를 대상으로 average fragment size(AFS), usable sequence information의 양, large fragments의 크기와 양을 측정하여 최종적으로 적합한 제한 효소(restriction enzyme)를 Genome-Builder™ 분석을 통하여 선정한다.
제한 효소(restriction enzyme)의 구체적인 선정 방법은 다음과 같다.
- usable sequence information % (5-20 Kb) : 90 % 이상
- usable sequence information % (6-15 Kb) : 70 % 이상
- usable sequence information % (6-12 Kb) : 60 % 이상
- average fragment size (AFS) : 5 Kb 이상
위의 조건을 만족하는 제한 효소(restriction enzyme) 중, number of fragments > 100 Kb의 개수와 large fragment의 크기가 큰 것을 선정한다.
이에 따른 제한 효소(restriction enzyme)의 선택 결과(Spel 제한 효소 선택)는 아래의 [표 8]과 같다.
Enzyme | Usable% 5Kb-20Kb | Usable% 6Kb-15Kb | Usable% 6Kb - 12Kb | Ave. Frags size (kb) | # of Frags > 100kb | Max Frag size (Kb) |
AflII | 25.12 | 10.31 | 10.07 | 4.58 | 4 | 117.49 |
BamHI | 94.94 | 82.36 | 72.76 | 8.08 | 19 | 159.82 |
KpnI | 98.76 | 91.89 | 69.64 | 10.35 | 50 | 154.09 |
NcoI | 17.1 | 3.37 | 3.35 | 3.85 | 0 | 84.46 |
NheI | 98.08 | 89.26 | 65.1 | 10.67 | 62 | 149.61 |
SpeI | 94.8 | 73.17 | 67.9 | 7.44 | 63 | 196.12 |
BglII | 7.01 | 2.12 | 2.07 | 3.79 | 1 | 104.69 |
EcoRI | 7.86 | 2.87 | 2.85 | 3.65 | 0 | 71.37 |
MluI | 0.76 | 0.23 | 0.09 | 130.62 | 9422 | 1529.97 |
NdeI | 12.35 | 6.4 | 6.21 | 3.25 | 3 | 105.73 |
PvuII | 2.2 | 0.4 | 0.4 | 2.7 | 3 | 149.7 |
XbaI | 9.27 | 3.33 | 3.26 | 3.64 | 3 | 147.38 |
XhoI | 26.46 | 11.1 | 4.88 | 23.64 | 2612 | 372.38 |
그런 다음, 슈퍼-스캐폴드 조립부(150)는 옵티컬 맵핑(Optical mapping)에 의해 생성된 단일 분자 지도(single molecule map)와 스캐폴드(scaffold)를 기반으로 선택된 제한 효소(restriction enzyme) 패턴의 비교를 통해 슈퍼-스캐폴드(super-scaffold)를 조립할 수 있다. 다시 설명하면, 도 2의 (d)에 도시된 바와 같이, 스캐폴드(scaffold) 서열과 옵티컬 맵핑(optical mapping) 방식으로부터 생성된 단일 분자 지도(single molecule map)을 제한 효소 패턴(restriction enzyme pattern) 비교를 통하여 함께 조립한다. 이때, 본 발명에서는 Genome BuilderTM을 활용하여, 스캐폴드(scaffold) 상의 선택된 제한 효소(restriction enzyme)의 위치를 규명한다. 정확한 슈퍼-스캐폴드(super-scaffold) 조립을 위하여 스캐폴드(scaffold)는 200 Kb 초과의 크기만 대상으로 하며, 단일 분자 지도(single molecule map)는 250 Kb 이상의 크기만 활용한다. 이후, 스캐폴드(scaffold)의 제한 효소(restriction enzyme)의 위치와 단일 분자 지도(single molecule map)의 제한 효소(restriction enzyme)의 위치 정보를 활용하여, extension이 가능한 스캐폴드(scaffold)와 스캐폴드(scaffold)를 서로 연결시켜, 슈퍼-스캐폴드(super-scaffold)를 조립한다. 이에 따른 단일 분자 지도(single molecule map) 생성 결과는 아래의 [표 9]와 같고, 슈퍼-스캐폴드(super-scaffold) 조립 결과는 아래의 [표 10]과 같다.
Summary of SMRM data | Maps used in analysis |
Total Size (Gb) | 745.51 |
Number of Molecules | 2,071,951 |
Average Size of Molecules (Kb) | 359.81 |
Minimum molecule size (Kb) | 250 |
Average Size of Fragments (Kb) | 13.24 |
Whole-genome
optical mapping을 활용한 super-scaffold 조립결과 |
||
Size (Mb) | No. | |
N90 | 3.86 | 140 |
N80 | 9.45 | 92 |
N70 | 14.47 | 67 |
N60 | 19.56 | 49 |
N50 | 25.93 | 36 |
Longest | 101.22 | - |
Gaps | 1.75 % | - |
Total (≥ 200bp) | 2.92 Gb | 68,103 |
Total (≥10 Kb) | 2.88 Gb | 1,176 |
그리고, 슈퍼-스캐폴드 조립부(150)는 PacBio 긴서열 해독 방법과 Illumina TSLR 합성 긴서열 해독 방법을 이용하여 상기 슈퍼-스캐폴드(super-scaffold) 상의 갭(gap)을 메꾼다. 다시 설명하면, 도 2의 (e)에 도시된 바와 같이, 슈퍼-스캐폴드(super-scaffold) 상의 갭(gap)(염기 서열 'N'으로 표기)을 메꾸기 위하여, 두 종류의 긴서열 해독을 수행한다. 이때, 본 발명에서는 PacBio 긴서열 해독 방식과 Illumina TSLR 합성긴서열 해독 방식을 활용한다. 여러 긴서열을 동시에 입력하며, consensus sequence(여러 서열 정보를 합치는 방식)를 만드는 방식으로 긴서열의 오류가 최소화 되도록 PBJelly2 프로그램(version 14.9.9)을 default option으로 수행한다. 이에 따른 PacBio 긴서열 해독 결과는 아래의 [표 11](P4C2 chemistry) 및 [표 12](P5C3 chemistry)와 같고, Illumina TSLR 합성 긴서열 해독 결과는 아래의 [표 13]과 같으며, 슈퍼-스캐폴드(super-scaffold) 상의 갭(gap)을 메꾼 결과는 아래의 [표 14]와 같다.
Size | Number of bases (bp) | Number of reads | Mean length (bp) |
~2kb | 2,200,375,125 | 2,023,326 | 1,088 |
~3kb | 2,598,138,881 | 1,054,927 | 2,463 |
~4kb | 2,253,729,183 | 650,819 | 3,463 |
~5kb | 1,993,913,569 | 445,503 | 4,476 |
~6kb | 1,868,335,867 | 341,037 | 5,478 |
~7kb | 1,692,679,373 | 261,244 | 6,479 |
~8kb | 1,490,151,540 | 199,293 | 7,477 |
~9kb | 1,264,147,938 | 149,166 | 8,475 |
~10kb | 1,025,254,470 | 108,261 | 9,470 |
10kb~ | 2,404,653,532 | 202,921 | 11,850 |
Total | 18,791,379,478 | 5,436,497 | 3,457 |
Region | Number of bases (bp) | Number of reads | Mean length (bp) |
~2kb | 376,691,922 | 352,650 | 1,068 |
~3kb | 448,189,058 | 179,744 | 2,493 |
~4kb | 581,090,138 | 166,158 | 3,497 |
~5kb | 707,030,086 | 157,272 | 4,496 |
~6kb | 815,006,427 | 148,315 | 5,495 |
~7kb | 905,881,157 | 139,481 | 6,495 |
~8kb | 978,965,060 | 130,607 | 7,496 |
~9kb | 1,063,290,046 | 125,158 | 8,496 |
~10kb | 1,084,089,752 | 114,232 | 9,490 |
10kb~ | 5,347,185,274 | 406,019 | 13,170 |
Total | 12,307,418,920 | 1,919,636 | 6,411 |
Region | Number of bases (bp) | Number of reads | Mean length (bp) |
~2kb | 1,745,885,089 | 1,627,362 | 1,073 |
~3kb | 1,227,839,348 | 498,112 | 2,465 |
~4kb | 1,200,052,670 | 345,449 | 3,474 |
~5kb | 1,170,624,980 | 261,313 | 4,480 |
~6kb | 1,141,935,546 | 208,259 | 5,483 |
~7kb | 1,132,652,780 | 174,578 | 6,488 |
~8kb | 1,358,992,691 | 181,044 | 7,506 |
~9kb | 2,532,232,743 | 294,819 | 8,589 |
~10kb | 2,879,791,577 | 304,656 | 9,453 |
10kb~ | 1,910,098,184 | 181,128 | 10,546 |
Total | 16,300,105,608 | 4,076,720 | 3,998 |
긴서열을
활용한 갭
클로징
(gap closing)
(PacBio and TSLR ) |
||
Size (Mb) | No. | |
N90 | 3.53 | 143 |
N80 | 9.26 | 93 |
N70 | 14.53 | 67 |
N60 | 19.36 | 50 |
N50 | 26.08 | 36 |
Longest | 101.48 | - |
Gaps | 1.06 % | - |
Total (≥ 200bp) | 2.94 Gb | 68,451 |
Total (≥10 Kb) | 2.90 Gb | 1,369 |
또한, 슈퍼-스캐폴드 조립부(150)는 슈퍼-스캐폴드(super-scaffold)의 오조립 영역을 검증한다. 즉, 슈퍼-스캐폴드 조립부(150)는 나노채널-기반 게놈 맵핑 데이터(nanochannel-based genome mapping data)를 이용하여 슈퍼-스캐폴드(super-scaffold)의 오조립 영역을 검증할 수 있다. 다시 설명하면, 도 2의 (f)에 도시된 바와 같이, BioNano Genomics의 나노채널-기반 게놈 맵핑 데이터(nanochannel-based genome mapping data)를 활용하여, 슈퍼-스캐폴드(super-scaffold)의 오조립 영역을 검증한다. 이때, 슈퍼-스캐폴드(super-scaffold)는 10 Kb 초과의 크기만을 대상으로 한다. 게놈 맵핑 데이터(genome mapping data)를 BioNano Genonmics Irys genome mapping system을 활용하여 consensus genome maps으로 조립을 하고, irysView 소프트웨어(version 2.1.0.30787)의 리눅스 명령어를 사용하여 BioNano consensus genome maps과 조립된 슈퍼-스캐폴드(super-scaffold)들의 게놈 구조를 비교한다. 오조립 영역을 검증하기 위해서, BioNano consensus genome maps은 인간게놈지도(GRCh38)과 비교한다. 모든 정렬(alignments) 결과를 수작업으로(manually) 확인하여, 오조립 영역을 규명하고 분리시킨다. 또한, BioNano consensus map도 오조립이 발생할 수 있으므로, align confidence score 20 이상인 consensus map을 대상으로 오조립 검증을 수행하며, 슈퍼-스캐폴드(super-scaffold), BioNano consensus map, 및 GRCh38의 구조를 서로 비교하여, 오조립 영역을 규명한다. 이에 따른 BioNano 게놈 지도(genome map) 생산 결과는 아래의 [표 15]와 같고, BioNano 게놈 지도(genome map)을 이용한 슈퍼-스캐폴드(super-scaffold)의 검증 결과는 도 3과 같다. 도 3에 도시된 바와 같이, 가장 길게 조립된 슈퍼-스캐폴드(super-scaffold)(도 3의 초록색 블록)에 대한 BioNano 게놈 지도(genome map)(도 3의 파란색 블록)를 통해 슈퍼-스캐폴드(super-scaffold)를 검증하였다.
BioNano single molcules | BioNano consensus maps | |
Total data | 210 Gb | - |
Single molecule N50 | 273 Kb | - |
Moleulces above 150Kb | 145 Gb | - |
Coverage depth | 45 × | - |
Assembly size | - | 2.78 Gb |
Consensus map N50 | - | 1.12 Mb |
염색체 서열 조립부(160)는 슈퍼-스캐폴드(super-scaffold)의 위치와 방향(strand) 정보를 기반으로 염색체(chromosome) 서열을 조립한다. 즉, 염색체 서열 조립부(160)는 인간게놈지도(GRCh38)에 정렬(align)된 슈퍼-스캐폴드(super-scaffold)의 위치와 방향(strand) 정보를 기반으로 염색체(chromosome) 서열을 조립할 수 있다.
다시 설명하면, 도 2의 (g)에 도시된 바와 같이, 조립 및 검증을 한 슈퍼-스캐폴드(super-scaffold) 서열을 염색체(chromosome) 서열로 확장시키기 위하여, 검증한 서열을 인간게놈지도(GRCh38)를 대상으로 SyMap 프로그램(v4.2)을 디폴트 비교 파라미터(default comparison parameters)로 전장 게놈 정렬(whole genome alignment)을 수행한다. 이때, 게놈 상의 반복 서열에 의한 bias를 제거하기 위하여, 10 Kb 이상의 슈퍼-스캐폴드(super-scaffold)를 대상으로 전장 게놈 정렬(whole genome alignment)을 수행한다. 맵핑되지 않은(unmapped) 슈퍼-스캐폴드들(super-scaffolds)은 GRCh38에 mapped anchor number를 4 이상의 조건으로 하여, 재정렬(re-align)시킨다. 크기가 작은 슈퍼-스캐폴드들(super-scaffolds)(200 bp ~ 10 Kb)은 BLASR 프로그램을 default option으로 수행하여, GRCh38에 정렬(align)시킨다. 이때, 맵핑 퀄리티(mapping quality) = 254인 경우만 사용한다. 인간게놈지도(GRCh38)에 정렬(align)된 슈퍼-스캐폴드(super-scaffold)의 위치와 방향(strand) 정보를 활용하여, 염색체(chromosome) 서열로 확장한다. 슈퍼-스캐폴드(super-scaffold) 간의 갭(gap) 정보는 인간게놈지도 상에서의 빈 영역의 길이를 사용하며, 만약, 슈퍼-스캐폴드(super-scaffold)의 위치가 겹치는 경우에는 10 Kb의 임의의 갭(gap)을 할당한다. 염색체(chromosome)의 양 끝에 10 Kb 갭(gap) 서열을 추가하여 telomeric region의 서열을 할당한다. GRCh38에 정렬(align)되지 않아, 염색체(chromosome) 상의 위치를 알 수 없는 슈퍼-스캐폴드들(super-scaffolds)은 chrUn 그룹에 위치시킨다. 이때, 본 발명에서 염색체(chromosome) 서열 조립은 자체적으로 개발한 script를 사용하였다. 이에 따른 인간게놈지도(GRCh38)와 조립/검증된 슈퍼-스캐폴드(super-scaffold)의 구조 비교 결과는 도 4와 같고, 염색체(chromosome) 조립 결과는 아래의 [표 16]과 같다.
Chromosomes
*Unplaced scaffolds were excluded. |
||
Size (Mb) | No. | |
N90 | 81.54 | 19 |
N80 | 103.05 | 16 |
N70 | 136.43 | 13 |
N60 | 137.59 | 11 |
N50 | 155.88 | 8 |
Longest | 251.92 | - |
Gaps | 9.44 % | - |
Total (≥ 200bp) | 3.12 Gb | 24 |
Total (≥10 Kb) | 3.12 Gb | 24 |
서열 치환부(170)는 전장 게놈 서열 데이터(whole genome re-sequencing data)를 이용하여 염색체(chromosome) 서열을 치환한다.
다시 설명하면, 도 2의 (h)에 도시된 바와 같이, 집단 공통서열 치환에 활용한 전장 게놈 서열 데이터(whole genome re-sequencing data)를 이용하여, 조립된 염색체(chromosome) 서열을 치환한다. 본 발명에서는 아래의 [표 17]과 같은 40명의 전장 게놈 서열 데이터(whole genome re-sequencing data)를 활용하였다.
Sample ID |
Total number of
raw reads |
Mapped
read depth (except 'N') |
Read mapping
rate ( % ) |
Homozygous
SNVs |
Homozygous
INDELs |
Heterozygous
SNVs |
Heterozygous
INDELs |
All
variants |
KPGP-00002 | 98,317,515,960 | 27.64 | 99.29 | 962,066 | 146,462 | 2,958,707 | 292,082 | 4,359,317 |
KPGP-00006 | 93,448,081,980 | 24.73 | 99.28 | 1,431,527 | 204,234 | 2,915,971 | 276,219 | 4,827,951 |
KPGP-00032 | 112,190,946,660 | 30.36 | 99.29 | 1,444,163 | 215,475 | 2,955,815 | 296,145 | 4,911,598 |
KPGP-00033 | 108,196,466,760 | 29.95 | 99.30 | 1,406,058 | 211,651 | 2,961,708 | 297,035 | 4,876,452 |
KPGP-00039 | 101,141,448,400 | 30.19 | 99.16 | 1,391,102 | 212,028 | 2,991,047 | 315,678 | 4,909,855 |
KPGP-00056 | 111,361,334,200 | 32.24 | 99.34 | 1,419,373 | 230,317 | 3,100,438 | 340,429 | 5,090,557 |
KPGP-00086 | 102,626,322,600 | 29.88 | 99.34 | 1,423,097 | 228,216 | 3,074,640 | 335,156 | 5,061,109 |
KPGP-00125 | 118,670,365,980 | 33.12 | 99.31 | 1,438,747 | 211,687 | 2,932,733 | 291,074 | 4,874,241 |
KPGP-00127 | 118,883,354,760 | 32.81 | 99.33 | 1,416,527 | 206,959 | 2,948,523 | 288,104 | 4,860,113 |
KPGP-00128 | 117,849,278,700 | 32.76 | 99.29 | 1,407,530 | 208,532 | 2,941,634 | 292,805 | 4,850,501 |
KPGP-00129 | 107,124,150,780 | 29.96 | 99.28 | 1,440,746 | 203,979 | 2,908,731 | 271,108 | 4,824,564 |
KPGP-00131 | 120,142,829,340 | 33.36 | 99.29 | 1,432,319 | 211,261 | 2,970,372 | 289,604 | 4,903,556 |
KPGP-00132 | 122,237,363,160 | 33.93 | 99.30 | 1,411,276 | 210,946 | 2,946,694 | 297,988 | 4,866,904 |
KPGP-00134 | 119,540,641,320 | 32.54 | 99.28 | 1,416,157 | 207,904 | 2,931,855 | 288,305 | 4,844,221 |
KPGP-00136 | 114,984,689,940 | 30.71 | 99.30 | 1,429,777 | 204,804 | 2,940,492 | 274,170 | 4,849,243 |
KPGP-00137 | 118,027,255,140 | 32.97 | 99.28 | 1,403,331 | 207,581 | 2,940,643 | 289,256 | 4,840,811 |
KPGP-00138 | 123,868,546,380 | 33.39 | 99.32 | 1,398,902 | 207,327 | 2,938,964 | 289,045 | 4,834,238 |
KPGP-00139 | 105,730,760,700 | 29.32 | 99.28 | 1,397,287 | 207,216 | 2,918,240 | 291,707 | 4,814,450 |
KPGP-00141 | 111,508,577,820 | 31.41 | 99.24 | 1,405,400 | 207,892 | 2,926,108 | 288,957 | 4,828,357 |
KPGP-00142 | 125,024,326,200 | 32.62 | 99.29 | 1,443,241 | 211,075 | 2,943,175 | 292,818 | 4,890,309 |
KPGP-00144 | 127,001,127,600 | 33.96 | 99.30 | 1,422,369 | 211,512 | 2,973,541 | 296,396 | 4,903,818 |
KPGP-00145 | 111,861,808,380 | 31.18 | 99.29 | 1,438,003 | 210,730 | 2,953,375 | 293,052 | 4,895,160 |
KPGP-00205-B01-G | 123,835,438,866 | 37.24 | 98.41 | 1,422,423 | 221,835 | 3,072,207 | 332,313 | 5,048,778 |
KPGP-00220 | 106,317,727,560 | 28.21 | 99.28 | 1,411,132 | 201,485 | 2,931,702 | 284,397 | 4,828,716 |
KPGP-00227 | 115,164,844,920 | 34.39 | 99.30 | 1,419,518 | 217,159 | 3,039,274 | 308,248 | 4,984,199 |
KPGP-00228 | 112,898,405,520 | 33.34 | 99.30 | 1,455,818 | 221,343 | 3,052,488 | 303,008 | 5,032,657 |
KPGP-00230 | 110,458,697,940 | 32.86 | 99.31 | 1,414,415 | 214,448 | 3,031,789 | 301,182 | 4,961,834 |
KPGP-00232 | 109,620,112,860 | 32.01 | 99.29 | 1,442,223 | 214,897 | 3,020,544 | 292,548 | 4,970,212 |
KPGP-00233 | 107,091,428,940 | 32.08 | 99.27 | 1,421,451 | 216,917 | 3,014,334 | 302,473 | 4,955,175 |
KPGP-00235 | 114,400,539,900 | 34.74 | 99.31 | 1,414,391 | 218,911 | 3,047,216 | 309,518 | 4,990,036 |
KPGP-00245-B01-G-PE500 | 102,078,086,860 | 31.40 | 99.11 | 1,465,527 | 223,235 | 3,031,190 | 322,301 | 5,042,253 |
KPGP-00254 | 122,277,928,000 | 34.56 | 99.24 | 1,427,301 | 221,720 | 3,080,569 | 313,709 | 5,043,299 |
KPGP-00255 | 102,221,657,600 | 29.67 | 99.34 | 1,414,140 | 227,857 | 3,083,228 | 336,527 | 5,061,752 |
KPGP-00256 | 127,033,362,000 | 36.61 | 99.35 | 1,422,753 | 235,874 | 3,174,628 | 355,538 | 5,188,793 |
KPGP-00265-B01-G-P500 | 90,922,729,400 | 27.53 | 99.29 | 1,414,977 | 216,811 | 2,964,359 | 306,126 | 4,902,273 |
KPGP-00266-B01-G-P500 | 91,666,078,800 | 27.38 | 99.32 | 1,374,215 | 212,665 | 2,962,424 | 307,516 | 4,856,820 |
KPGP-00269-B01-G-PE500 | 100,240,975,874 | 30.81 | 99.32 | 1,449,250 | 219,822 | 3,052,622 | 324,886 | 5,046,580 |
KPGP-00317-B01-G-PE500 | 103,075,371,660 | 26.76 | 87.15 | 1,400,454 | 208,300 | 3,002,602 | 306,055 | 4,917,411 |
KPGP-00318-B01-G-PE500 | 101,805,865,370 | 28.22 | 95.42 | 1,440,304 | 218,383 | 2,971,844 | 319,451 | 4,949,982 |
KPGP-00319-B01-G-PE500 | 100,957,938,100 | 27.77 | 97.17 | 1,403,626 | 213,564 | 3,063,114 | 315,785 | 4,996,089 |
전장 게놈 서열(whole genome re-sequencing)을 BWA-MEM 프로그램(version 0.7.8)을 default option으로 조립된 염색체(chromosome) 서열에 맵핑(mapping)한다. 이에 따른 맵핑 결과는 아래의 [표 18]과 같다.
Sample ID |
Total amount of
raw reads |
Mapped
read depth (except 'N') |
Read mapping
rate (%) |
Homozygous
SNP |
Homozygous
INDEL |
Heterozygous
SNP |
Heterozygous
INDEL |
All
variants |
KPGP-00002 | 98,317,515,960 | 27.64 | 99.29 | 962,066 | 146,462 | 2,958,707 | 292,082 | 4,359,317 |
KPGP-00006 | 93,448,081,980 | 24.73 | 99.28 | 1,431,527 | 204,234 | 2,915,971 | 276,219 | 4,827,951 |
KPGP-00032 | 112,190,946,660 | 30.36 | 99.29 | 1,444,163 | 215,475 | 2,955,815 | 296,145 | 4,911,598 |
KPGP-00033 | 108,196,466,760 | 29.95 | 99.30 | 1,406,058 | 211,651 | 2,961,708 | 297,035 | 4,876,452 |
KPGP-00039 | 101,141,448,400 | 30.19 | 99.16 | 1,391,102 | 212,028 | 2,991,047 | 315,678 | 4,909,855 |
KPGP-00056 | 111,361,334,200 | 32.24 | 99.34 | 1,419,373 | 230,317 | 3,100,438 | 340,429 | 5,090,557 |
KPGP-00086 | 102,626,322,600 | 29.88 | 99.34 | 1,423,097 | 228,216 | 3,074,640 | 335,156 | 5,061,109 |
KPGP-00125 | 118,670,365,980 | 33.12 | 99.31 | 1,438,747 | 211,687 | 2,932,733 | 291,074 | 4,874,241 |
KPGP-00127 | 118,883,354,760 | 32.81 | 99.33 | 1,416,527 | 206,959 | 2,948,523 | 288,104 | 4,860,113 |
KPGP-00128 | 117,849,278,700 | 32.76 | 99.29 | 1,407,530 | 208,532 | 2,941,634 | 292,805 | 4,850,501 |
KPGP-00129 | 107,124,150,780 | 29.96 | 99.28 | 1,440,746 | 203,979 | 2,908,731 | 271,108 | 4,824,564 |
KPGP-00131 | 120,142,829,340 | 33.36 | 99.29 | 1,432,319 | 211,261 | 2,970,372 | 289,604 | 4,903,556 |
KPGP-00132 | 122,237,363,160 | 33.93 | 99.30 | 1,411,276 | 210,946 | 2,946,694 | 297,988 | 4,866,904 |
KPGP-00134 | 119,540,641,320 | 32.54 | 99.28 | 1,416,157 | 207,904 | 2,931,855 | 288,305 | 4,844,221 |
KPGP-00136 | 114,984,689,940 | 30.71 | 99.30 | 1,429,777 | 204,804 | 2,940,492 | 274,170 | 4,849,243 |
KPGP-00137 | 118,027,255,140 | 32.97 | 99.28 | 1,403,331 | 207,581 | 2,940,643 | 289,256 | 4,840,811 |
KPGP-00138 | 123,868,546,380 | 33.39 | 99.32 | 1,398,902 | 207,327 | 2,938,964 | 289,045 | 4,834,238 |
KPGP-00139 | 105,730,760,700 | 29.32 | 99.28 | 1,397,287 | 207,216 | 2,918,240 | 291,707 | 4,814,450 |
KPGP-00141 | 111,508,577,820 | 31.41 | 99.24 | 1,405,400 | 207,892 | 2,926,108 | 288,957 | 4,828,357 |
KPGP-00142 | 125,024,326,200 | 32.62 | 99.29 | 1,443,241 | 211,075 | 2,943,175 | 292,818 | 4,890,309 |
KPGP-00144 | 127,001,127,600 | 33.96 | 99.30 | 1,422,369 | 211,512 | 2,973,541 | 296,396 | 4,903,818 |
KPGP-00145 | 111,861,808,380 | 31.18 | 99.29 | 1,438,003 | 210,730 | 2,953,375 | 293,052 | 4,895,160 |
KPGP-00205-B01-G | 123,835,438,866 | 37.24 | 98.41 | 1,422,423 | 221,835 | 3,072,207 | 332,313 | 5,048,778 |
KPGP-00220 | 106,317,727,560 | 28.21 | 99.28 | 1,411,132 | 201,485 | 2,931,702 | 284,397 | 4,828,716 |
KPGP-00227 | 115,164,844,920 | 34.39 | 99.30 | 1,419,518 | 217,159 | 3,039,274 | 308,248 | 4,984,199 |
KPGP-00228 | 112,898,405,520 | 33.34 | 99.30 | 1,455,818 | 221,343 | 3,052,488 | 303,008 | 5,032,657 |
KPGP-00230 | 110,458,697,940 | 32.86 | 99.31 | 1,414,415 | 214,448 | 3,031,789 | 301,182 | 4,961,834 |
KPGP-00232 | 109,620,112,860 | 32.01 | 99.29 | 1,442,223 | 214,897 | 3,020,544 | 292,548 | 4,970,212 |
KPGP-00233 | 107,091,428,940 | 32.08 | 99.27 | 1,421,451 | 216,917 | 3,014,334 | 302,473 | 4,955,175 |
KPGP-00235 | 114,400,539,900 | 34.74 | 99.31 | 1,414,391 | 218,911 | 3,047,216 | 309,518 | 4,990,036 |
KPGP-00245-B01-G-PE500 | 102,078,086,860 | 31.40 | 99.11 | 1,465,527 | 223,235 | 3,031,190 | 322,301 | 5,042,253 |
KPGP-00254 | 122,277,928,000 | 34.56 | 99.24 | 1,427,301 | 221,720 | 3,080,569 | 313,709 | 5,043,299 |
KPGP-00255 | 102,221,657,600 | 29.67 | 99.34 | 1,414,140 | 227,857 | 3,083,228 | 336,527 | 5,061,752 |
KPGP-00256 | 127,033,362,000 | 36.61 | 99.35 | 1,422,753 | 235,874 | 3,174,628 | 355,538 | 5,188,793 |
KPGP-00265-B01-G-P500 | 90,922,729,400 | 27.53 | 99.29 | 1,414,977 | 216,811 | 2,964,359 | 306,126 | 4,902,273 |
KPGP-00266-B01-G-P500 | 91,666,078,800 | 27.38 | 99.32 | 1,374,215 | 212,665 | 2,962,424 | 307,516 | 4,856,820 |
KPGP-00269-B01-G-PE500 | 100,240,975,874 | 30.81 | 99.32 | 1,449,250 | 219,822 | 3,052,622 | 324,886 | 5,046,580 |
KPGP-00317-B01-G-PE500 | 103,075,371,660 | 26.76 | 87.15 | 1,400,454 | 208,300 | 3,002,602 | 306,055 | 4,917,411 |
KPGP-00318-B01-G-PE500 | 101,805,865,370 | 28.22 | 95.42 | 1,440,304 | 218,383 | 2,971,844 | 319,451 | 4,949,982 |
KPGP-00319-B01-G-PE500 | 100,957,938,100 | 27.77 | 97.17 | 1,403,626 | 213,564 | 3,063,114 | 315,785 | 4,996,089 |
맵핑 결과 중 동일한 포지션에 일치하게 맵핑된 결과를 제거한다. 맵핑 퀄리티를 향상시키기 위하여 IndelRealigner를 수행하고, base quality scores는 GATK의 TableRecalibration 알고리즘을 사용하여 재교정(recalibration)한다. 한국인 전장 게놈 서열(whole genome re-sequencing)의 단일 염기 서열 변이(single nucleotide variation; SNV)와 삽입 및 결실(small insertion or deletion; indel) 변이를 Genome Analysis Toolkit(GATK, version 2.3.9) 프로그램을 이용하여 규명한다. 이에 따른 공통 서열 치환에 사용된 변이의 결과는 아래의 [표 19]와 같다.
SNVs | indels | Total |
1,951,986 | 219,728 | 2,171,714 |
SNV의 경우, 각 염기 위치별 allele 비율을 측정하고, 전체 전장 게놈 서열(n) * 2 haploids = 2n 중, 가장 높은 빈도로 발견되는 염기 서열이 KOREF 염기 서열과 다를 경우 치환한다. indel의 경우, 전체 전장 게놈 서열(n) * 2 haploids = 2n 중, 50% 이상에서 공통적으로 발견되는 경우에 치환한다. 성염색체(X, Y 염색체)의 경우, X 염색체는 여성 1인당 2n, 남성 1인당 1n으로부터 공통 변이를 측정하고, Y 염색체는 남성 1인당 1n으로부터 공통 변이를 측정한다. 이때, 본 발명에서 사용된 프로그램은 자체적으로 개발한 script를 사용하였다.
< 상염색체 (1 ~ 22 염색체) >
- 상염색체 대상 haploids 수 : 전장게놈서열 샘플수 (n) * 2 haploids = 2n
- 대표 SNV 선정 : 2n 개의 haploid 중 가장 높은 빈도로 발생하는 염기 서열(최고 높은 빈도의 염기가 2개 이상일 경우, KOREF 샘플과 동일한 염기 서열 선택)
- 공통 indel 선정 : 2n 개의 haploid 중 50% 이상 공통적으로 발견되는 indel 변이
< 성염색체 (X, Y 염색체) >
- X 염색체 대상 haploids 수 : (남성 전장게놈서열 샘플수 (n) * 1 haploid) + (여성 전장게놈서열 샘플수 (m) * 2 haploids) = n + 2m
- Y 염색체 대상 haploids 수 : (남성 전장게놈서열 샘플수 (n) * 1 haploid) = n
- 대표 SNV 선정 : n + 2m 개의 haploid 중 가장 높은 빈도로 발생하는 염기 서열(최고 높은 빈도의 염기가 2개 이상일 경우, KOREF 샘플과 동일한 염기 서열 선택)
- 공통 indel 선정 : n 개의 haploid 중 50% 이상 공통적으로 발견되는 indel 변이
위와 같은 단계별 참조표준 게놈지도의 조립 결과를 정리하면 아래의 [표 20]과 같다.
Scaffold |
Whole-genome
optical mapping |
Super-scaffold
(Long reads) |
Chromosomes
(Assessment using BioNano maps) |
|||||
Size
(Mb) |
No. |
Size
(Mb) |
No. |
Size
(Mb) |
No. |
Size
(Mb) |
No. | |
N90 | 3.09 | 178 | 3.86 | 140 | 3.53 | 143 | 81.54 | 19 |
N80 | 6.45 | 116 | 9.45 | 92 | 9.26 | 93 | 103.05 | 16 |
N70 | 10.45 | 81 | 14.47 | 67 | 14.53 | 67 | 136.43 | 13 |
N60 | 16.16 | 59 | 19.56 | 49 | 19.36 | 50 | 137.59 | 11 |
N50 | 19.85 | 42 | 25.93 | 36 | 26.08 | 36 | 155.88 | 8 |
Longest | 81.91 | - | 101.22 | - | 101.48 | - | 251.92 | - |
Gaps | 1.65 % | - | 1.75 % | - | 1.06 % | - | 9.44 % | - |
Total (≥ 200bp) |
2.92 Gb | 68,170 | 2.92 Gb | 68,103 | 2.94 Gb | 68,451 | 3.12 Gb | 24 |
Total (≥10 Kb) |
2.88 Gb | 1,243 | 2.88 Gb | 1,176 | 2.90 Gb | 1,369 | 3.12 Gb | 24 |
그러면, 도 5를 참조하여 본 발명의 바람직한 실시예에 따른 참조표준 게놈지도의 효과에 대하여 설명한다.
도 5는 본 발명의 바람직한 실시예에 따른 참조표준 게놈 지도의 효과를 설명하기 위한 그래프이다.
도 5의 (a)와 (b)에 도시된 그래프의 X 축은 흑인 5개(Mandeka, Yoruba, San, Mbuti, Dinka), 백인 5개(Sardinian, French, CEU), 비한국 아시아인 5개(Mongolian, Chinsese, Japanese), 한국인 5개(Korean)의 전장 게놈 서열 데이터(whole genome re-sequencing data)를 나타낸다. 그리고, 도 5의 (a)에 도시된 그래프의 Y 축은 homozygous SNV의 개수를 나타내고, (b)에 도시된 그래프의 Y 축은 homozygous indel의 개수를 나타낸다.
도 5에 도시된 그래프를 참조하면, 인간게놈지도(GRCh38)와 KOREF_S(본 발명에서, 1명으로 조립한 염색체), KOREF_C(본 발명에서, 1명으로 조립한 염색체 서열을 40명의 공통 변이로 치환)를 reference 서열로 활용했을 경우 20명의 전장 게놈 서열 데이터(whole genome re-sequencing data)에서 돌연변이 수를 확인할 수 있다. 1명으로 조립된 참조표준 게놈지도 대비(GRCh38 및 KOREF_S), 집단 공통(consensus) 서열을 포함한 참조표준 게놈지도(KOREF_C)가 더 적은 수의 변이를 발견하게 됨을 확인할 수 있다. 이와 같이, 집단 공통 서열을 포함한 참조표준 게놈지도는 개인 특이적으로 보유하고 있는 서열을 제거함으로써, 더 참조표준 게놈지도에 적합한 공통 서열을 보유하고 있음을 확인할 수 있다.
그리고, 본 발명에 따른 참조표준 게놈지도('KOREF'라 한다)의 품질을 비교한 결과는 아래의 [표 21]과 같다.
게놈지도 | 조립서열 길이(bp) |
스캐폴드/컨티그
N50 (Mb) |
인간게놈지도
( GRCh38 ) 복원율 (%) |
단편중복(segmental duplication) 영역 | 반복(repeat) 서열 | NCBI 유전자 복원 | |||
길이(bp) | % | 길이(bp) | % | 수 | % | ||||
인간게놈지도 GRCh38 (염색체) |
3,209,286,105 | 67.79 | - | 212,777,868 | - | 1,564,209,365 | - | 20,135 | - |
KOREF (염색체) | 3,211,075,818 | 26.46 | 88.47 | 149,353,191 | 70.19 | 1,452,404,484 | 92.85 | 17,758 | 88.19 |
AK1 | 2,904,207,228 | 44.85 | 87.90 | 144,868,735 | 68.08 | 1,454,888,506 | 93.01 | 17,759 | 88.20 |
CHM1_PacBio_r2 | 2,996,426,293 | 26.90 | 88.02 | 205,559,250 | 96.61 | 1,541,211,387 | 98.53 | 17,657 | 87.69 |
ASM101398v1 | 3,176,574,379 | 26.83 | 88.26 | 168,652,649 | 79.26 | 1,545,168,387 | 98.78 | 6,610 | 32.83 |
HsapALLPATHS1 | 2,786,258,565 | 12.08 | 82.89 | 90,343,965 | 42.46 | 1,250,655,296 | 79.95 | 16,995 | 84.41 |
HuRef (염색체) | 2,844,000,504 | 17.66 | 85.85 | 134,317,812 | 63.13 | 1,411,487,301 | 90.24 | 16,968 | 84.27 |
Mongolian | 2,881,945,563 | 7.63 | 86.54 | 121,384,034 | 57.05 | 1,399,420,366 | 89.47 | 17,189 | 85.37 |
YH_2.0 | 2,911,235,363 | 20.52 | 86.31 | 127,254,909 | 59.81 | 1,397,013,571 | 89.31 | 17,125 | 85.05 |
African | 2,676,008,911 | 0.062 | 69.47 | 55,830,170 | 26.24 | 968,988,149 | 61.95 | 9,167 | 45.53 |
여기서, 조립 서열 길이가 인간게놈지도의 조립 서열 길이와 유사할수록, 스캐폴드/컨티그 N50이 길수록, 인간게놈지도 복원율/단편중복영역 복원율, 반복서열 복원율, NCBI 유전자 복원율이 높을수록 조립 품질이 좋음을 의미한다.
그러면, 도 6을 참조하여 본 발명의 바람직한 실시예에 따른 공통서열을 포함한 참조표준 게놈지도 구축 방법에 대하여 설명한다.
도 6은 본 발명의 바람직한 실시예에 따른 공통서열을 포함한 참조표준 게놈지도 구축 방법을 설명하기 위한 흐름도이다.
도 6을 참조하면, 게놈지도 구축 장치(100)는 단서열과 긴짝서열을 생산한다(S110). 즉, 게놈지도 구축 장치(100)는 NGS(next generation sequencing)를 이용하여 미리 설정된 값보다 작은 단편 크기(insert size)를 가지는 단서열(short insert[short paired-end])과 미리 설정된 값보다 큰 단편 크기(insert size)를 가지는 긴짝서열(long insert[long-mate pair])을 생산한다. 여기서, 미리 설정된 값은 1Kb(단편 크기)일 수 있다.
그리고, 게놈지도 구축 장치(100)는 단서열과 긴짝서열을 필터링한다(S120). 즉, 게놈지도 구축 장치(100)는 서열 필터링부(120)는 단서열과 긴짝서열에서 미리 설정된 리드(read)를 필터링한다. 여기서, 미리 설정된 리드(read)는 중복된 리드(read), 어댑터(adapter) 서열이 포함된 리드(read), 퀄리티 점수(quality score) 값이 미리 설정된 값보다 작은 서열, 접합 어댑터(junction adapter)가 포한된 리드(read) 등을 말한다.
그런 다음, 게놈지도 구축 장치(100)는 단서열을 기반으로 컨티그(contig)를 조립한다(S130). 즉, 게놈지도 구축 장치(100)는 드 부루인(De Bruijn) 그래프를 이용하여 단서열을 기반으로 컨티그(contig)를 조립한다.
그리고, 게놈지도 구축 장치(100)는 컨티그(contig)와 긴짝서열을 기반으로 스캐폴드(scaffold)를 조립한다(S140).
그런 다음, 게놈지도 구축 장치(100)는 단일 분자 지도(single molecule map)와 스캐폴드(scaffold)를 기반으로 슈퍼-스캐폴드(super-scaffold)를 조립한다(S150). 즉, 게놈지도 구축 장치(100)는 단일 분자 지도(single molecule map)와 상기 스캐폴드(scaffold)를 기반으로 제한 효소(restriction enzyme) 비교를 통해 슈퍼-스캐폴드(super-scaffold)를 조립한다.
그리고, 게놈지도 구축 장치(100)는 슈퍼-스캐폴드(super-scaffold) 상의 갭(gap)을 메꾼다(S160). 즉, 게놈지도 구축 장치(100)는 PacBio 긴서열 해독 방법과 Illumina TSLR 합성 긴서열 해독 방법을 이용하여 상기 슈퍼-스캐폴드(super-scaffold) 상의 갭(gap)을 메꾼다.
또한, 게놈지도 구축 장치(100)는 슈퍼-스캐폴드(super-scaffold)의 오조립 영역을 검증한다(S170). 즉, 게놈지도 구축 장치(100)는 나노채널-기반 게놈 맵핑 데이터(nanochannel-based genome mapping data)를 이용하여 슈퍼-스캐폴드(super-scaffold)의 오조립 영역을 검증할 수 있다.
그런 다음, 게놈지도 구축 장치(100)는 염색체(chromosome) 서열을 조립한다(S180). 즉, 게놈지도 구축 장치(100)는 인간게놈지도(GRCh38)에 정렬(align)된 슈퍼-스캐폴드(super-scaffold)의 위치와 방향(strand) 정보를 기반으로 염색체(chromosome) 서열을 조립할 수 있다.
이후, 게놈지도 구축 장치(100)는 염색체(chromosome) 서열을 치환할 수 있다(S190). 즉, 게놈지도 구축 장치(100)는 전장 게놈 서열 데이터(whole genome re-sequencing data)를 이용하여 염색체(chromosome) 서열을 치환할 수 있다.
그러면, 도 7을 참조하여 본 발명의 바람직한 실시예에 따른 서열 필터링 단계에 대하여 보다 자세하게 설명한다.
도 7은 도 6에 도시한 서열 필터링 단계를 보다 자세히 나타낸 흐름도이다.
도 7을 참조하면, 게놈지도 구축 장치(100)는 단서열과 긴짝서열에서 중복된 리드(read)를 필터링할 수 있다(S121).
그리고, 게놈지도 구축 장치(100)는 단서열과 긴짝서열에서 어댑터(adapter) 서열이 포함된 리드(read)를 필터링할 수 있다(S123).
또한, 게놈지도 구축 장치(100)는 퀄리티 점수(quality score) 값을 기반으로 단서열과 긴짝서열을 필터링할 수 있다(S125). 즉, 게놈지도 구축 장치(100)는 단서열과 긴짝서열에서 퀄리티 점수(quality score) 값이 미리 설정된 값보다 작은 서열을 필터링할 수 있다.
그리고, 게놈지도 구축 장치(100)는 긴짝서열에서 접합 어댑터(junction adapter)가 포한된 리드(read)를 필터링할 수 있다(S127).
또한, 게놈지도 구축 장치(100)는 단서열과 상기 긴짝서열이 미리 설정된 길이를 가지도록 자를(trimming) 수 있다(S129).
그러면, 도 8을 참조하여 본 발명의 바람직한 실시예에 따른 컨티그 조립 단계에 대하여 보다 자세하게 설명한다.
도 8은 도 6에 도시한 컨티그 조립 단계를 보다 자세히 나타낸 흐름도이다.
도 8을 참조하면, 게놈지도 구축 장치(100)는 단서열을 기반으로 K-mer 분석을 수행하여 K-mer 빈도 테이블(frequency table)을 획득할 수 있다(S131).
그리고, 게놈지도 구축 장치(100)는 K-mer 빈도 테이블(frequency table)을 이용하여 상기 단서열의 에러(error)를 보정할 수 있다(S133).
또한, 게놈지도 구축 장치(100)는 K-mer 빈도 테이블(frequency table)과 드 부루인(De Bruijn) 그래프를 이용하여 에러 보정(error correction)된 단서열을 기반으로 컨티그(contig)를 조립할 수 있다(S135).
그러면, 도 9를 참조하여 본 발명의 바람직한 실시예에 따른 스캐폴드 조립 단계에 대하여 보다 자세하게 설명한다.
도 9는 도 6에 도시한 스캐폴드 조립 단계를 보다 자세히 나타낸 흐름도이다.
도 9를 참조하면, 게놈지도 구축 장치(100)는 컨티그(contig)에 긴짝서열을 정렬(alignment)하여 실제 단편 크기(insert size)를 측정할 수 있다(S141).
그리고, 게놈지도 구축 장치(100)는 실제 단편 크기(insert size)를 이용하여 컨티그(contig)와 긴짝서열을 기반으로 스캐폴드(scaffold)를 조립할 수 있다(S143).
또한, 게놈지도 구축 장치(100)는 스캐폴드(scaffold) 상의 갭(gap)을 메꿀 수 있다(S145).
그러면, 도 10을 참조하여 본 발명의 바람직한 실시예에 따른 슈퍼-스캐폴드 조립 단계에 대하여 보다 자세하게 설명한다.
도 10은 도 6에 도시한 슈퍼-스캐폴드 조립 단계를 보다 자세히 나타낸 흐름도이다.
도 10을 참조하면, 게놈지도 구축 장치(100)는 제한 효소(restriction enzyme)를 선택할 수 있다(S151).
그리고, 게놈지도 구축 장치(100)는 옵티컬 맵핑(Optical mapping)에 의해 생성된 단일 분자 지도(single molecule map)와 스캐폴드(scaffold)를 기반으로 선택된 제한 효소(restriction enzyme) 패턴의 비교를 통해 슈퍼-스캐폴드(super-scaffold)를 조립할 수 있다(S153).
본 발명은 또한 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터로 읽을 수 있는 기록 매체는 컴퓨터에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 롬(ROM), 램(RAM), 씨디-롬(CD-ROM), 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 유무선 통신망으로 연결된 컴퓨터 장치에 분산되어 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 다음의 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.
100 : 참조표준 게놈지도 구축 장치, 110 : 서열 생산부,
120 : 서열 필터링부, 130 : 컨티그 조립부,
140 : 스캐폴드 조립부, 150 : 슈퍼-스캐폴드 조립부,
160 : 염색체 서열 조립부, 170 : 서열 치환부
120 : 서열 필터링부, 130 : 컨티그 조립부,
140 : 스캐폴드 조립부, 150 : 슈퍼-스캐폴드 조립부,
160 : 염색체 서열 조립부, 170 : 서열 치환부
Claims (17)
- NGS(next generation sequencing)를 이용하여 미리 설정된 값보다 작은 단편 크기(insert size)를 가지는 단서열과 상기 미리 설정된 값보다 큰 단편 크기(insert size)를 가지는 긴짝서열을 생산하는 서열 생산부;
상기 단서열과 상기 긴짝서열에서 미리 설정된 리드(read)를 필터링하는 서열 필터링부;
드 부루인(De Bruijn) 그래프를 이용하여 상기 단서열을 기반으로 컨티그(contig)를 조립하는 컨티그 조립부;
상기 컨티그에 상기 긴짝서열을 정렬(alignment)하여 실제 단편 크기(insert size)를 측정하고, 상기 실제 단편 크기(insert size)를 이용하여 상기 컨티그와 상기 긴짝서열을 기반으로 스캐폴드(scaffold)를 조립하며, 상기 스캐폴드(scaffold) 상의 갭(gap)을 메꾸는 스캐폴드 조립부;
제한 효소(restriction enzyme)를 선택하고, 옵티컬 맵핑(Optical mapping)에 의해 생성된 단일 분자 지도(single molecule map)와 상기 스캐폴드(scaffold)를 기반으로 선택된 상기 제한 효소(restriction enzyme) 패턴의 비교를 통해 슈퍼-스캐폴드(super-scaffold)를 조립하고, PacBio 긴서열 해독 방법과 Illumina TSLR 합성 긴서열 해독 방법을 이용하여 상기 슈퍼-스캐폴드(super-scaffold) 상의 갭(gap)을 메꾸며, 나노채널-기반 게놈 맵핑 데이터(nanochannel-based genome mapping data)를 이용하여 상기 슈퍼-스캐폴드(super-scaffold)의 오조립 영역을 검증하는 슈퍼-스캐폴드 조립부;
인간게놈지도(GRCh38)에 정렬(align)된 상기 슈퍼-스캐폴드(super-scaffold)의 위치와 방향(strand) 정보를 기반으로 염색체(chromosome) 서열을 조립하는 염색체 서열 조립부; 및
전장 게놈 서열 데이터(whole genome re-sequencing data)를 이용하여 상기 염색체(chromosome) 서열을 공통서열로 치환하는 서열 치환부;
를 포함하는 공통서열을 포함한 참조표준 게놈지도 구축 장치. - 제1항에서,
상기 컨티그 조립부는,
상기 단서열을 기반으로 K-mer 분석을 수행하여 K-mer 빈도 테이블(frequency table)을 획득하고, 상기 K-mer 빈도 테이블(frequency table)을 이용하여 상기 단서열의 에러(error)를 보정하며, 상기 K-mer 빈도 테이블(frequency table)과 상기 드 부루인(De Bruijn) 그래프를 이용하여 에러 보정된 상기 단서열을 기반으로 상기 컨티그(contig)를 조립하는 공통서열을 포함한 참조표준 게놈지도 구축 장치. - 제1항에서,
상기 서열 필터링부는,
상기 단서열과 상기 긴짝서열에서 중복된 리드(read)를 필터링하고, 상기 단서열과 상기 긴짝서열에서 어댑터(adapter) 서열이 포함된 리드(read)를 필터링하며, 상기 단서열과 상기 긴짝서열에서 퀄리티 점수(quality score) 값이 미리 설정된 값보다 작은 서열을 필터링하고, 상기 긴짝서열에서 접합 어댑터(junction adapter)가 포함된 리드(read)를 필터링하며, 상기 단서열과 상기 긴짝서열이 미리 설정된 길이를 가지도록 자르는(trimming) 공통서열을 포함한 참조표준 게놈지도 구축 장치. - 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 공통서열을 포함한 참조표준 게놈지도 구축 장치의 게놈지도 구축 방법으로서,
NGS(next generation sequencing)를 이용하여 미리 설정된 값보다 작은 단편 크기(insert size)를 가지는 단서열과 상기 미리 설정된 값보다 큰 단편 크기(insert size)를 가지는 긴짝서열을 생산하는 단계;
상기 단서열과 상기 긴짝서열에서 미리 설정된 리드(read)를 필터링하는 단계;
드 부루인(De Bruijn) 그래프를 이용하여 상기 단서열을 기반으로 컨티그(contig)를 조립하는 단계;
상기 컨티그에 상기 긴짝서열을 정렬(alignment)하여 실제 단편 크기(insert size)를 측정하고, 상기 실제 단편 크기(insert size)를 이용하여 상기 컨티그와 상기 긴짝서열을 기반으로 스캐폴드(scaffold)를 조립하며, 상기 스캐폴드(scaffold) 상의 갭(gap)을 메꾸는 단계;
제한 효소(restriction enzyme)를 선택하고, 옵티컬 맵핑(Optical mapping)에 의해 생성된 단일 분자 지도(single molecule map)와 상기 스캐폴드(scaffold)를 기반으로 선택된 상기 제한 효소(restriction enzyme) 패턴의 비교를 통해 슈퍼-스캐폴드(super-scaffold)를 조립하는 단계;
PacBio 긴서열 해독 방법과 Illumina TSLR 합성 긴서열 해독 방법을 이용하여 상기 슈퍼-스캐폴드(super-scaffold) 상의 갭(gap)을 메꾸는 단계;
나노채널-기반 게놈 맵핑 데이터(nanochannel-based genome mapping data)를 이용하여 상기 슈퍼-스캐폴드(super-scaffold)의 오조립 영역을 검증하는 단계;
인간게놈지도(GRCh38)에 정렬(align)된 상기 슈퍼-스캐폴드(super-scaffold)의 위치와 방향(strand) 정보를 기반으로 염색체(chromosome) 서열을 조립하는 단계; 및
전장 게놈 서열 데이터(whole genome re-sequencing data)를 이용하여 상기 염색체(chromosome) 서열을 공통서열로 치환하는 단계;
를 포함하는 공통서열을 포함한 참조표준 게놈지도 구축 방법. - 제9항에서,
상기 컨티그(contig) 조립 단계는,
상기 단서열을 기반으로 K-mer 분석을 수행하여 K-mer 빈도 테이블(frequency table)을 획득하는 단계;
상기 K-mer 빈도 테이블(frequency table)을 이용하여 상기 단서열의 에러(error)를 보정하는 단계; 및
상기 K-mer 빈도 테이블(frequency table)과 상기 드 부루인(De Bruijn) 그래프를 이용하여 에러 보정된 상기 단서열을 기반으로 상기 컨티그(contig)를 조립하는 단계;
를 포함하는 공통서열을 포함한 참조표준 게놈지도 구축 방법. - 제9항에서,
상기 리드(read) 필터링 단계는,
상기 단서열과 상기 긴짝서열에서 중복된 리드(read)를 필터링하는 단계;
상기 단서열과 상기 긴짝서열에서 어댑터(adapter) 서열이 포함된 리드(read)를 필터링하는 단계;
상기 단서열과 상기 긴짝서열에서 퀄리티 점수(quality score) 값이 미리 설정된 값보다 작은 서열을 필터링하는 단계;
상기 긴짝서열에서 접합 어댑터(junction adapter)가 포한된 리드(read)를 필터링하는 단계; 및
상기 단서열과 상기 긴짝서열이 미리 설정된 길이를 가지도록 자르는(trimming) 단계;
를 포함하는 공통서열을 포함한 참조표준 게놈지도 구축 방법. - 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 제9항 내지 제11항 중 어느 한 항에 기재된 공통서열을 포함한 참조표준 게놈지도 구축 방법을 컴퓨터에서 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 컴퓨터 프로그램.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170006310A KR101930253B1 (ko) | 2017-01-13 | 2017-01-13 | 공통서열을 포함한 참조표준 게놈지도 구축 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170006310A KR101930253B1 (ko) | 2017-01-13 | 2017-01-13 | 공통서열을 포함한 참조표준 게놈지도 구축 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180083706A KR20180083706A (ko) | 2018-07-23 |
KR101930253B1 true KR101930253B1 (ko) | 2018-12-18 |
Family
ID=63103154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170006310A KR101930253B1 (ko) | 2017-01-13 | 2017-01-13 | 공통서열을 포함한 참조표준 게놈지도 구축 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101930253B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210129977A (ko) | 2020-04-21 | 2021-10-29 | 주식회사 클리노믹스 | 개체 개별 표준게놈지도의 생성 방법 및 그 시스템 |
KR20230004088A (ko) | 2021-06-30 | 2023-01-06 | 건국대학교 산학협력단 | 참조 유전체 및 다양한 시퀀싱 데이터를 이용한 고품질 유전체 어셈블리 제작방법 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111724858B (zh) * | 2020-05-14 | 2024-06-07 | 东北林业大学 | 利用软件运行基因组序列比对修补gap的方法 |
CN113178231B (zh) * | 2021-04-26 | 2024-01-05 | 中国科学院武汉病毒研究所 | 一种基于二代测序技术的consensus序列统计分析、可视化方法 |
CN113416770B (zh) * | 2021-05-28 | 2024-09-24 | 上海韦翰斯生物医药科技有限公司 | 一种染色体结构变异断点的定位方法及装置 |
CN116343919B (zh) * | 2023-04-11 | 2023-12-08 | 天津大学四川创新研究院 | 一种全基因组图谱绘制测序方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007524399A (ja) | 2003-07-03 | 2007-08-30 | ザ・レジェンツ・オブ・ザ・ユニバーシティ・オブ・カリフォルニア | 機能性dnaエレメントおよび細胞性タンパク質のゲノムマッピング |
-
2017
- 2017-01-13 KR KR1020170006310A patent/KR101930253B1/ko active IP Right Grant
Non-Patent Citations (3)
Title |
---|
J.Sohn 외 1인, "The present and future of de novo whole-genome assembly." Briefings in bioinformatics. 19권, 1호, pp.23-40. (2016.10.14.)* |
R.C.McCoy 외, "Illumina TruSeq synthetic long-reads empower de novo assembly and resolve complex, highly-repetitive transposable elements." PloS one, 9권, 9호, (2014.09.04.)* |
Y.DONG 외, "Sequencing and automated whole-genome optical mapping of the genome of a domestic goat (Capra hircus)", Nature biotechnology, 2013, 31권, 2호, pp.135-143, (2012.12.23.)* |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210129977A (ko) | 2020-04-21 | 2021-10-29 | 주식회사 클리노믹스 | 개체 개별 표준게놈지도의 생성 방법 및 그 시스템 |
KR20230004088A (ko) | 2021-06-30 | 2023-01-06 | 건국대학교 산학협력단 | 참조 유전체 및 다양한 시퀀싱 데이터를 이용한 고품질 유전체 어셈블리 제작방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20180083706A (ko) | 2018-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101930253B1 (ko) | 공통서열을 포함한 참조표준 게놈지도 구축 장치 및 방법 | |
Zimin et al. | Hybrid assembly of the large and highly repetitive genome of Aegilops tauschii, a progenitor of bread wheat, with the MaSuRCA mega-reads algorithm | |
Pilkington et al. | A manually annotated Actinidia chinensis var. chinensis (kiwifruit) genome highlights the challenges associated with draft genomes and gene prediction in plants | |
Li et al. | De novo assembly of 20 chicken genomes reveals the undetectable phenomenon for thousands of core genes on microchromosomes and subtelomeric regions | |
Wang et al. | Assembly of chloroplast genomes with long-and short-read data: a comparison of approaches using Eucalyptus pauciflora as a test case | |
DiGuistini et al. | De novo genome sequence assembly of a filamentous fungus using Sanger, 454 and Illumina sequence data | |
Skennerton et al. | Crass: identification and reconstruction of CRISPR from unassembled metagenomic data | |
Bzikadze et al. | Automated assembly of centromeres from ultra-long error-prone reads | |
Koren et al. | Hybrid error correction and de novo assembly of single-molecule sequencing reads | |
Li et al. | Genome assembly in the telomere-to-telomere era | |
Aury et al. | High quality draft sequences for prokaryotic genomes using a mix of new sequencing technologies | |
Coombe et al. | Assembly of the complete Sitka spruce chloroplast genome using 10X Genomics’ GemCode sequencing data | |
CN113496760B (zh) | 基于第三代测序的多倍体基因组组装方法和装置 | |
CN108629156B (zh) | 三代测序数据纠错的方法、装置和计算机可读存储介质 | |
Qi et al. | The haplotype-resolved chromosome pairs of a heterozygous diploid African cassava cultivar reveal novel pan-genome and allele-specific transcriptome features | |
CN110621785B (zh) | 基于三代捕获测序对二倍体基因组单倍体分型的方法和装置 | |
ES2861477T3 (es) | Método para determinar la clonalidad celular | |
Moeinzadeh et al. | Ranbow: a fast and accurate method for polyploid haplotype reconstruction | |
Steinberg et al. | Building and improving reference genome assemblies | |
Peng et al. | A novel codon-based de Bruijn graph algorithm for gene construction from unassembled transcriptomes | |
Palazzo et al. | Identification of Bari transposons in 23 sequenced Drosophila genomes reveals novel structural variants, MITEs and horizontal transfer | |
JP2020527938A5 (ko) | ||
Cacciabue et al. | A beginner’s guide for FMDV quasispecies analysis: sub-consensus variant detection and haplotype reconstruction using next-generation sequencing | |
Schmeing et al. | Gapless provides combined scaffolding, gap filling, and assembly correction with long reads | |
Cliften | Base calling, read mapping, and coverage analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
N231 | Notification of change of applicant | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |