KR101832834B1

KR101832834B1 - 다중점도표 분석 기반 변이 탐색 방법 및 시스템

Info

Publication number: KR101832834B1
Application number: KR1020170128472A
Authority: KR
Inventors: 김창훈
Original assignee: 주식회사 샤인바이오
Priority date: 2017-03-09
Filing date: 2017-10-01
Publication date: 2018-04-13
Anticipated expiration: 2037-10-01
Also published as: US20180260521A1

Abstract

본 발명은 게놈 서열을 분석하는 방법에 관한 것으로, 상세하게는 기존의 레퍼런스 게놈 (reference genome) 서열 정보를 수정하는 게놈 분석 방법에 관한 것이다. 보다 상세하게는 디노보 어셈블리 (de novo assembly)를 이용하여 시험 서열의 게놈을 어셈블리한 서열을 기존 레퍼런스 게놈의 서열과 다중점도표 분석 방법으로 비교 분석하여 기존 레퍼런스 게놈의 갭 클로징을 빠르고 효율적으로 수행하여, 기존 레퍼런스 게놈의 서열 정보를 수정하여 레퍼런스 게놈의 완성도를 높이는 방법에 관한 것이다. 또한, 본 발명은 이러한 게놈 분석 방법에 따라 수정된 레퍼런스 서열 및 디노보 어셈블리된 시험 서열과 비교하여 대상 시험체의 게놈 서열 상의 유전자 변이를 확인하는 방법에 관한 것이다. 특히, 하플로타입 특이적인 유전자 변이를 확인하는 방법에 관한 것이다.

Description

다중점도표 분석 기반 변이 탐색 방법 및 시스템 {METHOD AND SYSTEM FOR MULTIPLE DOT PLOT ANALYSIS}

본 발명은 게놈 서열을 분석하는 방법에 관한 것으로, 상세하게는 기존의 레퍼런스 게놈 (reference genome) 서열 정보를 수정하는 게놈 분석 방법에 관한 것이다. 보다 상세하게는 디노보 어셈블리 (de novo assembly)를 이용하여 시험 서열의 게놈을 어셈블리한 것을 기존 레퍼런스 게놈과 다중점도 분석 방법으로 비교 분석하여 기존 레퍼런스 게놈의 갭 클로징을 빠르고 효율적으로 수행하여, 기존 레퍼런스 게놈의 서열 정보를 수정하는 게놈 분석 방법에 관한 것이다. 또한, 본 발명은 이러한 게놈 분석 방법에 따라 수정된 레퍼런스 서열 및 디노보 어셈블리된 시험 서열과 비교하여 대상 시험체의 게놈 서열 상의 유전자 변이를 확인하는 방법에 관한 것이다. 특히, 하플로타입 특이적인 유전자 변이를 확인하는 방법에 관한 것이다.

생물체의 게놈 서열을 완성하는 작업은 게놈의 비교 분석, 기능 및 구조 연구에 있어서 중요한 일이다. DNA 서열분석방법의 발달에 따라 현재 수많은 종의 게놈 서열이 밝혀지고 있다. 생물체로부터 얻은 대량의 데이터로부터 유용한 지식을 얻어내기 위해 전산학, 수학, 통계학적 방법을 활용하는 바이오인포매틱스 (bioinformatics) 연구가 생물정보 분석에 필수적인 도구가 되고 있다.

개개 게놈의 유전체를 연구하여 개인 맞춤형 의약을 개발하는 정밀의학 (precision medicine) 분야에서 게놈 서열 정보 분석이 중요한 역할을 한다. 게놈 서열 정보 분석에 기초한 정밀의학의 분석 방법으로 대상 시험체 개체의 게놈 서열을 시퀀싱하여 대조구로 “레퍼런스 게놈 (reference genome)”과 비교하여 구조적 변이를 찾아내고, 구조적 변이와 질환 또는 기능적 변화와의 연관성을 연구할 필요가 있다. 효율적이며 의미있는 구조적 변이 탐색을 수행하기 위해서는 대조구로서 높은 완성도를 가지며, 자연 상태의 게놈 구조를 반영할 수 있으며, 인종적 특이성을 대표할 수 있는 레퍼런스 게놈 어셈블리가 필요하다. 레퍼런스 게놈의 완성도를 높이기 위한 다양한 시도가 있었다.

“레퍼런스 게놈”은 한 종의 유전자를 대표하는 서열 정보를 지칭한다. 생물체 염색체 시퀀싱의 가장 큰 난관 중의 하나는 절대적 크기가 매우 커서, 현재의 기술로는 한쪽 끝에서부터 다른 쪽 끝까지 한 번에 읽는 것은 불가능하다는 것이다. 따라서, 연구자들은 생물학적 샘플로부터 게놈 DNA를 추출하고, 이들을 수백만 개의 작은 단편으로 만든 다음, 각각의 단편을 시퀀싱하게 된다. 이들 개개 단편의 연속적인 서열을 “리드 (reads)”라 하고, 사용하는 기술에 따라 100 내지 1000개의 핵산 염기로 구성된다. 이후 각 리드의 서열을 어셈블리하게 되는데, 이는 작은 퍼즐 조각들로부터 큰 그림의 퍼즐을 완성해 나가는 것과 같은 작업이다. 기술의 발달에 따라 새로운 서열 수정 작업과 그 결과물인 수정 정보가 계속해서 발생하므로, 각 버전 중간에 레퍼런스 게놈은 “패치 (patches)”라고 지칭하는 수정된 버전으로 계속해서 업데이트되고 있으며, 게놈 레퍼런스 컨소시엄 (Genome Reference Consortium, GRC)이 체계적인 업데이트를 담당하고 있다. 인간의 경우 현재 레퍼런스 게놈은 GRCh38이다. 이 버전은 2014년에 발표된 가장 최신 버전으로, 종전에는 2009년에 발표된 GRCh37이 레퍼런스 게놈으로 사용되었다.

인간 게놈 프로젝트에서는 다수의 공여자로부터 얻은 게놈으로부터 BAC 클론 라이브러리를 구축하고, 이들 라이브러리를 이용하여 클론 기반 어셈블리 방법 (clone-based assembly approach)과 생어 시퀀싱 (Sanger sequencing) 방법을 사용하여, 게놈 시퀀싱을 완성하였다. 이 중 아프리칸-유럽 인종 유래의 공여자로부터 구성된 RPCI-11 라이브러리로부터 유래한 BAC 클론들이 표준 레퍼런스 서열의 많은 부분을 제공하고 있고 (약 70%), 기타 라이브러리부터 유래한 BAC 클론 유래의 서열들이 레퍼런스 서열을 구성하는데 기여하였다. 인간 게놈 프로젝트에서 2001년에 발표한 인간 게놈의 드래프트 서열 (the draft sequence)은 게놈의 약 87%를 커버하고, 유전자 발현이 활성화되어 있는 영역인 유크로마틴 (euchromatic) DNA의 약 90%를 커버하였다. 게놈 어셈블리에는 약 145,000개의 갭이 존재하였다. 나머지 10%의 유크로마틴 DNA를 시퀀싱하는데 추가적인 시간과 돈이 소요되었고, 2004년도에 “완성된” (“finished”) 게놈 서열이 발표되었다. 완성된 버전에서는 99%의 유크로마틴 DNA와 93%의 총 DNA (유크로마틴 영역과 함께 유전자 발현이 비활성화되어 있는 헤테로크로마틴 (heterochromatin) 영역) 서열이 시퀀싱되었다. 완성된 서열은 341개의 갭을 가지고 있었다 (International Human Genome Sequencing Consortium, Nature, 2004).

시퀀싱 기술의 발달로 게놈 시퀀싱은 매우 일반적인 것이 되었으나, 게놈 어셈블리는 여전히 난제로 남아 있다. 게놈의 유전적 변이를 정확히 이해하기 위해서는 높은 정확도의 게놈 어셈블리가 대조 레퍼런스로 사용되어야 한다. 레퍼런스 게놈이 정확할수록 유전적 변이를 탐색 및 구조적 중요성 해석이 정확해 진다. 복잡한 유전체 구조 또는 시퀀싱 갭으로 데이터를 얻을 수 없을 때, 질환을 일으키는 유전적 변이를 탐지할 수 없게 된다.

게놈 “어셈블리 (assembly)” 과정은 크게 두 단계로 나뉜다: 시퀀스 조각인 리드들 다수를 정렬하고 오버랩핑하여 인접해 있는 서열 형태로 갭이 없는 “컨티그 (contig)”를 생성하는 단계와 하나 이상의 컨티그에 순서를 매기고 방향성을 설정하여 연결하여 “스캐폴드 (scaffold)”를 형성하는 단계로 이루어진다.

단편 서열 리드 정보에 기초하여 연속적인 서열 전체를 완성하는 게놈 어셈블리에서 갭이 발생하게 되므로 완벽하게 하나의 연속적인 서열의 어셈블리를 구성하는 것에는 한계가 있다. 그 이유로는 첫째 시퀀싱 양의 부족으로 전체 게놈보다 휠씬 더 많은 양의 DNA 시퀀싱을 하지 않는 이상 커버되지 않는 영역이 발생하기 때문이다. 이러한 문제는 시퀀싱을 많이 할수록 해결할 수 있다. 두번째 이유는 생물의 게놈, 특히 고등생물로 갈수록 반복서열 (repeated DNA)이 많이 존재하기 때문이다. 또 다른 이유로는 G/C가 많은 영역이나, 이차구조, 헤어핀 구조가 형성된 영역은 시퀀싱 자체가 힘들기 때문이다. 이러한 경우에는 시퀀싱을 많이 한다고 해서 해결되지는 않고 새로운 접근법이 필요하게 된다.

게놈 어셈블리에 존재할 수 있는 갭은 두 종류의 형태로 나뉜다. 첫번째 유형의 갭은 시퀀싱 갭 (sequencing gap)으로 이들은 컨티그의 위치 및 방향은 알고 있으나, 중간에 서열 정보가 없을 때 발생한다. 시퀸싱 갭으로 떨어져 있는 인접한 컨티그를 연결하여 스캐폴드를 만들 수 있다. 두번째 유형의 갭은 물리적 갭 (physical gap)으로 인접한 컨티그에 대한 정보가 알려져 있지 않은 경우이다. 예를 들어, 하나의 컨티그를 다른 컨티그에 연결하는 정보가 없는 경우, 게놈 상에 어느 위치에 존재하게 되는지 알 수 없게 된다. 물리적 갭을 채우기 위해서는 혼성화 (hybridization)와 같은 전통적인 라이브러리 스크리닝 방법을 이용하여 적절한 클론을 스크리닝하거나 긴 삽입체 클론을 이용한 시퀀싱을 통해 컨티그를 연결하는 정보를 얻는 것이 필요하다.

레퍼런스 게놈으로 가장 완성된 버전인 현재의 GRCh38은 최초 버전에 비해서 상당한 업그레이드를 거쳤고, 그 정확성 및 완결성으로 인해 다수의 게놈 시퀀싱 프로젝트에서 대조를 위한 표준 서열로 사용되고 있으나, 여전히 한계점이 존재한다.

첫번째 문제점은 레퍼런스 게놈에는 인종적 다양성이 반영되어 있지 않다는 한계가 있다. 인간 게놈 프로젝트는 서구권에서 진행된 게놈 시퀀싱 프로젝트로 소수 국가의 참여자들로부터 공여 받은 샘플을 사용하였고, 거의 70% 정도의 서열 정보는 아프리카-유럽 인종으로 추정되는 한 공여자의 게놈에서 유래한 것이다. 따라서 인종 전체의 다양성을 충실히 반영하고 있지 못하다는 한계가 있다.

두번째 문제점은 최신 버전인 GRCh38에도 여전히 다수의 갭이 존재한다는 것이다. 2004년도에 인간게놈 프로젝트에서 발표한 “완성된” 레퍼런스 게놈에는 약 340개의 갭이 존재하였는데, 이후 갭을 클로징하는 시도를 통해서 기존에 알려지지 않았던 서열을 확인하여 갭을 채우기도 하였으나, 새로운 갭이 연장되기도 하였다. 예를 들어, Bovee 등 (2007)은 새로운 DNA 소스로서 다양한 게놈 포스미드 라이브러리 (fosmid libraries)를 구축하여 종전에 갭으로 남아있던 영역의 클론들을 맵핑하고, 당시 알려진 250개의 유크로마틴 갭 중의 10%에 해당하는 26개의 갭을 클로징하는 동시에, 다른 영역에 존재하는 67개의 유크로마틴 갭을 추가하였다.

추가적인 문제점은 레퍼런스 게놈은 다수의 공여자로부터 얻은 패치워크로 실제 자연계에 존재하지 않는 인공적인 형태라는 것이다. 레퍼런스 게놈 공급원은 이배체 (diploid)로 각각의 염색체 상에 두개의 상이한 카피가 존재하고, 특히 구조적 변이 (structural variation)가 서로 상이한 다른 형태인데 반해서 레퍼런스 게놈은 다수의 클론 공급원으로부터 유래한 패치워크로 하플로이드 (haploid) 하나의 혼합된 형태로 제시되는 문제가 있다. 그 결과 두가지 버전의 구조적 변이체 (structural variant)가 합쳐지면서 자연계에는 존재하지 않는 새로운 유전형을 나타내는 것으로 표현되거나, 서열 정보가 연속적으로 이어지지 않아 갭이 생길 수 있다.

초기에 단편 서열 시퀀싱을 하는 방법으로 이용된 Sanger 방식은 DNA 조각을 분리하고 방사능으로 읽어내는 방식을 따로 수행하여 조작이 불편하고 시간이 오래 걸려서 이를 자동화하기 위한 기술이 발달하였다. 차세대 염기 서열 시퀀싱 (Next Generation Sequencing, NGS) 기술은 하나의 유전체를 무수히 많은 조각으로 분해하여 짧은 길이 (100 내지 200 뉴클레오티드)의 리드들을 대량으로 생성하고, 각 리드를 동시에 읽은 뒤 전산 기술을 이용하여 어셈블리하여 유전체 정보를 해독하는 방법으로, 저비용, 고효율의 게놈 시퀀싱을 수행할 수 있게 한다. NGS 기술력 향상으로 DNA의 게놈 시퀀싱 분야의 급격한 발전이 이루어졌다. Sanger 법은 시퀀싱을 하기 위해 약 500bp의 주형 DNA가 필요하므로 라이브러리 구축과 클로닝 과정이 요구되었고, 이를 위해 많은 시간과 비용이 소모되었다. NGS 기술에선 클론을 얻는 과정을 단순화하여 DNA를 적절히 짧은 단편으로 자른 후 프라이머를 이용하여 PCR로 바로 증폭하는 클론 증폭 (clonal amplification)을 하였다. 차세대 NGS (Next NGS) 기술에서는 더 나아가 클론 증폭 없이 단일 DNA 분자로부터 바로 실시간으로 시퀀싱을 하여 PCR로 하는 클론 증폭 과정에서 나타나는 오류를 감소시켜 정확도를 높이고, 시퀀싱 속도를 더욱 높였다 (권선일 2012). Pacific Biosciences에서 개발된 단일분자 시퀀싱 기술인 SMRT (single-molecule, real-time, SMRT)는 리드 길이를 평균 10kb 이상까지 늘렸다.

리드 조각의 염기 서열 정보를 바탕으로 전체 염기 서열을 구성하는 어셈블리 유형으로는 레퍼런스에 대한 사전 지식을 염기 서열 정보를 정렬하는데 활용하는 “레퍼런스 어셈블리”와, 레퍼런스 정보에 의존하지 않고 염기 서열 정보를 정렬하고 재조합하여 원래의 전체 서열로 재구성하는 방식의 “디노보 (de novo) 어셈블리”가 있다. 기존 생어 시퀀싱 기반 분석 방식과 비교해 시간과 비용을 대폭 감축시킨 NGS 기술의 장점에도 불구하고 최근까지도 NGS 기술을 이용한 디노버 어셈블리로 전체 시퀀싱을 완성하는 것에는 어려움이 존재했는데, 그 이유는 어셈블리 과정은 리드들의 길이가 길고, 겹침 (overlap) 영역이 클수록 쉬운데, NGS 기술은 생어 시퀀싱 기반 분석 방식보다 리드 길이가 휠씬 짧고, 어셈블리해야 하는 리드의 총 수가 매우 많으며, 유전체에서 높은 빈도로 발생하는 반복 (repeat) 구간들이 많아 가짜 겹침 (false-positive overlap)이 생성될 가능성이 높기 때문이다 (정보과학회논문지, 2013). 본원 발명 이전에 균류 유전체를 대상으로 디노보 어셈블리 방법으로 오픈소스 소프트웨어의 알고리즘을 사용하여 최적 어셈블리를 선별하여 게놈 시퀀스 어셈블리를 수행하는 방법이 기술되었다 (한국 특허 공개번호: 10-2017-0053147). 그러나, 균류는 평균 크기가 35Mb 정도로, 인간 게놈의 크기 3Gb와 같이 큰 유전체가 갖는 크기와 복잡도를 갖고 있지 않다.

갭 클로징을 위한 시도로 종전에는 별도의 DNA 공급원으로부터 게놈 라이브러리를 구축하여 갭 영역 근처에 맵핑되는 갭 스패닝 (gap-spanning) 클론을 얻어 시퀀싱하는 방법을 사용하기도 하였다 (Bovee 2007). NGS 기술을 이용한 갭 클로징 시도로, 전장 게놈 시퀀싱을 통해 갭 클로징을 하고, 구조적 변이를 밝히려는 시도가 있어 왔다. 그 같은 시도 중 한 연구 결과에서는 (Chaisson 2015), GRCh37의 알려진 164개의 틈새 유크로마틴 갭 (interstitial euchromatic gaps)에서 50개를 클로징하고, 추가로 40개를 연장하여, 각각 398kb 및 721kb의 신규 서열을 게놈에 추가한 바 있다. 그러나 이같이 NGS 기술 기반의 시퀀싱만을 이용하여 갭 클로징하는 방법의 한계는 레퍼런스 게놈 정보에 의존한 로컬 어셈블리 (local assembly) 만으로는 리드 길이를 초과하는 넓은 범위나 매우 유사한 반복서열이 나타나거나 전위가 나타나는 복잡한 영역에서는 레퍼런스에 맵핑하기가 어렵다는 것이다. 따라서, 상기 연구에서는 SMRT WGS 리드만으로는 이러한 영역들은 해결되거나 연장할 수 없었던 영역을 해결하기 위해 별도로 클론 기반의 계층적 접근방법 (hierarchical approach)을 사용하였다.

“닷 매트릭스 (dot matrix)” 분석법 또는 점도표 분석 방법은 두개 이상의 단백질 또는 핵산 서열의 비교를 위해 생물학자들이 많이 사용하는 방법이다. “점도표 (dotplots)”는 닷 매트릭스 분석법의 시각적 결과물로 보존된 도메인, 리버스 매치 (reverse matches) 및 반복서열 (repeats)을 연구하여 서열 간의 진화적 관계를 해석하고 분석하는데 사용될 수 있다. 점도표는 직교 좌표계의 각 축에 좌표화된 정보를 배치하여 좌표로 배치된 정보 간의 같은 점과 다른 점이 있는지를 시각화하여 보여주는 표로, 축에 배치하는 정보가 유전자의 서열일 경우 두 유전자 서열 정보 간의 차이점과 차이점이 발생하는 위치정보를 시각화하여 알려준다. 점도표의 기본원리는 하나의 서열을 x-축을 따라 배열하고, 다른 하나의 서열을 y-축을 따라 배열해서, x-축의 서열에서 위치 i에 대응하는 y-축의 서열의 위치 j에 해당하는 염기가 동일한 경우 “점 (dot)”을 그리는 것이다. 유전자 서열이 정확하지 않거나 비어 있는, 즉 오류가 난 위치를 한눈에 알 수 있는 장점이 있다. 또한, 두 유전자가 하나는 레퍼런스이고 다른 하나는 비교 유전자일 경우 서열의 차이는 곧 유전자 서열의 변이 정보를 나타내어 주므로 점도표 배치의 비교 정보를 통하여 서열 변이 위치를 알 수 있다. 점도표의 원리는 1970년대에 도입되어 왔으며, 'Dotter' 프로그램은 그래픽 유저 인터페이스를 가진 최초의 대화형 (interactive) 점도표 분석 방법이다 (Krumsiek 2007).

Gonzalez 등 (2008)에 따르면, 서로 다른 서열을 직교 점도표에 배치하여 두 개의 서열을 비교한 것을 개시 하였는데, 이 점도표에서 나타난 두 서열 간의 상이한 위치 즉, 원래 알려진 서열과 비교 대상 서열이 서로 일치하지 않는 부위는 비교 대상 서열의 갭이 되거나 혹은 구조적인 변이가 일어난 부위임을 알 수 있다고 하였다. 이를 통하여 새로 알고자 하는 서열의 갭과 서열의 변이에 대한 정보를 수정하거나 추가할 수 있다. 이처럼 점도표는 서열 정보를 비교 할 때 이용하고 있음을 알 수 있으나, 레퍼런스 게놈 (이미 알려진 게놈 서열) 서열을 한 축에 놓고, 비교하고자 하는 서열을 다른 축에 놓아 비교하는 경우와 같이 서로 다른 서열 점도표 상 상이점에 대한 정보를 알아내는 경우에만 한정적으로 사용되고 있음을 알 수 있다. 단순히 레퍼런스 게놈 서열과 새로 어셈블리하는 서열을 각각 x축과 y축에 배치하여 그 배열을 단순 비교하는 것은 효율적이지 않았다. 나아가, 상기 연구와 같이 본원 발명 이전에는 기존에 알려진 레퍼런스 게놈의 정보에 의존하여 새로 어셈블리하고자 하는 서열의 위치를 찾는데 점도표 분석 방법을 사용한 것이지, 레퍼런스 게놈에 존재하는 갭을 클로징하거나 연장하는 것과 같이 어셈블리된 게놈 자체에 대한 정보를 수정하기 위해 사용된 사례가 없었다. 나아가, 레퍼런스 게놈 어셈블리의 자가 점도표와 시험 서열 어셈블리의 자가 점도표를 서로 비교한 다중점도표를 이용하여 갭을 해결하려는 시도는 없었다.

게놈 시퀀싱 및 바이오인포맥티스 분석을 통해 기능적으로 중요한 유전적 변이를 찾고자 노력해왔다. 인간 게놈 유전체 변이는 단일염기다형성 SNP와 구조 변이 (Structural Variant, SV) 등이 있으며, 최근 연구결과는 이들 유전체 변이들이 표현형 (phenotype)의 변화, 질병에 대한 민감성 및 약물에 대한 반응성의 차이 등에 관여하는 것을 밝히고 있다. 인간 유전체 변이 중 단일염기다형성 (single-nucleotide polymorphism, SNP)의 패턴에 대해서는 많은 연구가 이루어졌고 인구 표본에서 유전자형 분석이 이루어졌다. 반면, 인간 게놈에서의 구조적 변이인 SV에 대해서는 최근에서야 SV가 표현형의 차이 및 질환에 걸리기 쉬운 경향성에 미치는 영향이 알려지면서 연구가 증가하기 시작했다. 단일염기다형성 SNP는 인간 게놈 변이 중 0.1% 정도를 차지하는데 반해, 구조적 변이 SV는 1.2% 정도를 차지하는 것이 알려졌다 (Tattini 등 2015). SV는 게놈의 변이 중의 하나로, 유전적 변이-증폭 (segmental duplication), 복제수변이 (copy number variation), 전좌 (translocation), 전위 (inversion), 삽입 (insertion)과 결실 (deletion)를 가리킨다. 종전에는 1kb 이상의 서열의 변이가 SV 판단의 기준이었으나, 최근 들어 다양한 서열 분석 방법의 발달로 다양한 SV들에 대한 분석이 가능해 지고 작은 부위에서 일어나는 SV 또한 단백질의 변형과 질병 등에 영향을 주는 것이 밝혀짐에 따라, 50bp 이상의 유전자 재배열을 포함하도록 기준이 변경되었다 (Eichler 등, 2011).

SV는 건강한 개체에서 나타나는 경우 표현형의 다양성에 영향을 미치는 역할이 알려져 있으며, 유전 질환과 신경계 질환 및 암 등에서의 질병 발생 및 약물의 작용 메커니즘에 미치는 영향이 알려져 있다. 따라서, SV 영역을 완벽하게 분석하는 작업은 질병의 원인 유전자를 찾아 치료 방법을 개발하는 데에 도움을 줄 것으로 기대된다. SV는 게놈의 갭 영역에 많이 존재하는 것이 알려져 있다. 구조적으로 폴리몰픽한 (polymorphic) 영역, 특히 중첩이 일어난 영역이 게놈 어셈블리 상의 갭을 형성하는데 기여할 수 있고, 특히 갭 부위의 인접한 클론들이 두개의 구조적으로 변이가 있는 하플로타입에서 유래하는 경우 갭이 발생할 수 있다 (Bovee 2007).

색맹, Rh식 혈액군 민감성, 혈우병 및 베타- 및 알파-탈라세미아 (thalassemia) 등의 유전적 형질이 유전자의 복잡한 구조적 변형에 기인하는 것이 알려져 있었다. 아울러 수백만 염기쌍 서열의 변화를 동반하는 유전적 질환으로 프레더-윌리 증후군 (Prader-Willi syndrome), 구개심장안면 증후군 (velocardiofacial syndrome) 등이 알려져 있다 (Eichler 등 2007). 이와 같은 희귀성 유전적 질환 및 게놈 질환에서 SV의 역할 이외에도, 다수의 일반적인 구조적 변이가 정상적인 표현형 다양성과 질병에 대한 민감성에 있어서 중요한 역할을 하는 것이 알려져 있다. 예를 들어, UGT2B17 유전자의 결실은 테스토스테론 대사 차이와 전립선암의 위험도 측면에서 인종적 개인적 차이에 기여하는 것이 알려져 있다. CC31 유전자의 카피 수 증가는 HIV 감염에 걸릴 확률을 낮추고 ADIS로 진행하는 확률을 낮추는 것이 알려져 있다. 또한, DEFB4 유전자 카피 수의 감소는 콜론성 크론 질환 (Crohn's disease)에 걸릴 확률을 높이고, FCGR3 카피 수의 감소는 사구체신염 (glomerulonephritis)에 걸릴 확률을 높이는 것이 알려져 있다 (Eichler 등 2007).

서열 분석을 위하여 생성한 리드들을 레퍼런스 게놈에 매핑 (mapping)하면 실제로 레퍼런스 게놈과 정확히 맞지 않는 다양한 패턴의 신호들이 검출되는데 이 신호들이 발생하는 위치가 바로 SV의 위치가 된다. 또한 이 신호는 바로 갭이 발생할 확률이 높아진 부위이거나, 갭의 위치가 되는 곳을 알려줄 수 있다. 따라서 레퍼런스 게놈의 갭을 채우는 것은 동시에 SV를 검출 하고자 하는 대상 (환자 등)의 게놈과 레퍼런스 게놈을 비교 분석할 때 보다 확실한 정보를 제공해 주는 것이기도 하다. 즉, SV의 분석과 갭을 채우는 작업은 동시에 서로의 정보 오류를 수정할 수 있는 방법인 것이다.

게놈의 구조적 변이 (SV) 탐지 방법은 종래에는 어레이-기반 방법과 PCR 기반 분석 방법이 많이 사용되어왔다. 어레이-기반 비교 게놈 혼성화 (comparative genome hybridization) (array-CGH)는 레퍼런스 게놈과 비교 대상 게놈 간의 형광 강도 패턴을 비교하는 것으로 게놈 전체를 스캔하여 신규한 CNV (copy number variation)을 찾아내는데 효과적으로 사용된다 (Feuk 등, 2006). SV를 스크리닝하는 방법으로 특정 영역을 타겟팅하여 분석하는 방법으로는 PCR-기반의 방법이 사용된다. 가장 잘 확립된 방법으로는 실시간 정량 PCR (qPCR)이 있고, 이 방법은 개별적인 결실 및 중복을 잘 찾아내지만, 다중화 (multiplexing)을 탐지하는 데에는 약하다는 단점이 있다. 어레이-기반 CGH는 복제수 변이 발견에 집중되어 사용되어 왔고, DNA 프로브에 따라 해상도 및 분석 성능이 좌우되며, 전좌 (translocation)나 전위 (inversion)을 발견할 수 없다는 단점이 있었다.

SV를 탐지하는 추가적인 방법으로 상이한 공급원으로부터 유래한 DNA 서열을 컴퓨터 상에서 서로 비교하여 인 실리코 (in silico)로 확인하는 방법이 있다. 이 방법에서는, 각각 독특한 인간 DNA 공급원 유래의 두개의 어셈블리를 배열하여 그 차이를 탐지해 낸다. 상기 방법의 장점은 모든 종류의 변이체를 탐지할 수 있다는 것이다. 또 한가지 장점은 해상도에 제한이 없고, 뉴클레오티드 수준에서 변이체를 확인할 수 있다는 것이다 (Feuk 등 2006). 인 실리코 방법의 다른 유형은 페어드-엔드 시퀀스 (paired-end sequence) 방법이다. 상기 방법은 선택된 게놈의 게놈 라이브러리로부터 클론들의 양쪽 끝에 해당하는 서열로부터 유래하는 앵커 포인트 (anchor points)를 레퍼런스 어셈블리에 배열되도록 하고, 이들 사이의 거리를 클론에서 예상되는 크기와 비교하는 것이다. 차이가 존재할 경우 잠재적인 삽입 또는 결실 변이체의 가능성을 암시한다. 이 방법은 일부 역위 (inversion)의 탐지에도 적합하다. 또한, SV는 샷건 시퀀싱 데이터로부터 얼마나 많이 시퀀싱 되었는지 (sequence read-depths)를 분석하여 확인할 수 있다 (Feuk 2006).

서열 구조적 변이의 비정상적인 패턴 및 다른 기능적 분자 정보를 밝히는 방식으로 DNA에 닉킹 (nicking)된 단일 가닥 갭을 만든 후 DNA를 표지하여 특이 서열 모티브를 형성하여, 서열 모티브의 물리적 분포 및 빈도를 지도화하여 게놈 매핑에 이용하거나 병원체 게놈을 확인하는 용도를 개시하고 있다 (한국 특허 공개번호 10-2012-0084313). 일례로 BCR 유전자 및 ABL1 유전자 전위가 필라델피아 염색체를 형성하고, 백혈병의 주된 원인이 되는 것이 알려져 있는데, BCR 및 ABL1 유전자 전위를 프로브로 표지하여 특이적 바코딩 패턴으로부터 임상적 진단을 시도하고 있다.

대부분의 다세포 생물은 이배체 (diploid)의 염색체를 가지게 되고, 하나의 유전적 특성을 결정하는 여러 형태의 대립유전자 (allele)를 갖는다. 두개의 대립유전자는 부계에서 유래하는 것과 모계에서 유래하는 것의 형태가 동일한 2개로 1조를 이루어 상동 염색체에 대응하는 같은 부위에 존재한다. 다음 세대로 유전정보가 전달될 때 블록 단위로 DNA 서열의 전달이 일어나는데, 이러한 블록의 DNA 서열이 하플로타입이다. 또 다른 의미로는 하나의 염색체 상에 통계적으로 연관되고, 함께 유전되는 경향이 있는 인접한 SNP의 집합을 하플로타입이라고 한다. 염색체 쌍 중 하나만을 나타내는 하플로이드 (haploid) 상의 대립유전자들의 군과 아울러 유전자의 변이가 일어나는 패턴은 하나의 세트로 유전되는데 이를 하플로타입 (haplotype)이라고 한다. 레퍼런스 게놈 어셈블리 등의 기존의 게놈 서열 분석에서는 하플로타입의 정보가 제한되어 있었는데, 이는 게놈 샘플이 이배체로부터 유래된 샘플에 기초하는 데에다가, 이를 무작위로 소형의 조각으로 자른 뒤 리드 정보로부터 어셈블리를 구축하기 때문에 자연상태의 이배체 게놈의 구조가 아니라 인공적인 패치워크가 만들어지기 때문이다. 이에 더해서 레퍼런스 게놈의 경우, 시퀀싱에 사용된 라이브러리들이 다수의 공여자 유래로, 여러 개의 게놈 공급원이 혼합되어 있기 때문에 하플로타입이 혼합되어 나타나고 자연계에는 존재하지 않는 형태의 인공적인 하플로타입으로 나타나게 된다. 최근 개발된 제2세대 NGS 분석방법은 보다 짧은 서열 조각을 만들기 때문에, 어셈블리에서 게놈의 복잡한 구조를 표현하는데 있어서 한계를 나타낸다. 하플로이드 페이징 (phasing)은 염색체 상에 통계적으로 연관된 SNP 집합을 분석하여 부계로부터 유래하는 하플로이드와 모계로부터 유래하는 하플로이드를 구분하는 것을 말한다. NGS 리드 길이가 짧을 경우 한 리드 안에 복수개의 SNP가 포함되지 않으므로 하플로이드 분류를 할 수 없는데, 긴 리드의 데이터에선 연관되어 있는 유전적 변이 패턴을 분석하여 페이징이 가능하다. 하플로이드의 리드를 어셈블리한 컨티그는 하플로티그 (haplotig)라고 지칭한다.

게놈의 유전적 변이, 특히 구조적 변이 SV 탐색에 있어서 효율 및 정확성을 높이기 위해서는 레퍼런스 게놈의 “완성도 (completeness)”를 보다 높일 필요가 있다. 레퍼런스 게놈 어셈블리의 완성도를 높이기 위해 여전히 갭으로 남아있는 영역들의 클로징 또는 연장이 필요하다. 레퍼런스 게놈에 존재하지 않는 서열 정보들 또는 구조적 변이를 탐지할 수 있기 위해서는 레퍼런스 게놈에 의존하지 않는 디노보 어셈블리로 재구성된 서열 정보가 필요하다. 디노보 어셈블리를 구축하는데 있었어 NGS 분석방법이 갖는 짧은 리드 서열 정보에 의존하기에 생기는 문제 및 하플로이드 정보를 반영하는데 있어서 갖는 한계를 극복하기 위해서는, 최신 NGS 방법을 사용하여 롱리드 시퀀스로 최대한 길게 서열을 읽고, 하플로이드 정보를 반영하여야 한다.

바이오나노 제노믹스, 특허공개번호 10-2012-0084313 (공개일: 2012년 7월 27일) 이상열, 특허등록번호 10-1533395 (공고일: 2015년 7월 8일) 지앤시바이오, 특허등록번호 10-1632881 (공고일: 2016년 6월 23일) 고려대학교 산학협력단, 특허공개번호 10-2017-0053147 (공개일: 2017년 5월 15일)

International Human Genome Sequencing Consortium, "Finishing the euchromatic sequence of the human genome", Nature, 2004, 431: 931-945. Feuk, L., "Structural variation in the human genome", Nature reviews. Genetics, 2006, 7(2): 85. Eichler, E. et al., "Completing the map of human genetic variation", Nature, 2007, 447(7141): 161-165. Bovee, D. et al., "Closing gaps in the human genome with fosmid resources generated from multiple individuals", Nature Genetics, 2007, 40(1): 96-101. Gonzalez, J. et al., "Clustering exact matches of pairwise sequence alignments by weighted linear regression", BMC bioinformatics, 2008, 9(1): 102. Kim, C. "Birth of an 'Asian cool' reference genome: AK1." BMB reports, 2016, 49(12): 653. Tattini, L. et al., "Detection of genomic structural variants from next-generation sequencing data", Frontiers in Bioengineering and Biotechnology, 2015, 92(3):1-8. Chaisson, JP. et al., "Resolving the complexity of the human genome using single-molecule sequencing", Nature, 2015, 517(7536): 608-611. Seo, J. et al., "De novo assembly and phasing of a Korean human genome," Nature, 2016, doi:10.1038/nature20098. 정광수, 질병관리본부, 주간 건강과 질병, "차세대 시퀀싱 기술 기반의 구조적 변이 검출", 2011 김정민, 질병관리본부, 주간 건강과 질병, "질환연관 유전자변이 기능 연구 동향", 2013, 6(10)

기존 인간 게놈 구조 분석을 위한 레퍼런스 게놈은 시퀀싱 및 어셈블리의 한계로 인해 염기서열의 갭을 가진 채로 레퍼런스로 쓰이고 있다. 또한 이 인간 레퍼런스 게놈은 주로 백인 및 흑인의 게놈으로 구성되어 있으며, 실제로 게놈이 가지는 복잡성과 다양성이 더 많이 밝혀지는 배경 하에서 아시아인의 고유 레퍼런스 게놈의 분석을 통하여 인종 특이적인 구조 변이 탐색에 더 정확한 표준이 될 수 있는 인간 레퍼런스 게놈을 만드는 필요성이 대두되고 있다.

또한 인간의 질병의 원인을 생물 유전 정보 분석을 통하여 밝히기 위하여 구조적 변이 SV를 분석 할 때도 레퍼런스 게놈 정보가 정확해야 정확성이 높아지므로 정밀 의약품 개발 측면에서도 레퍼런스 게놈의 정확도 향상의 필요성이 요구되고 있다.

본 발명에서는 하기의 단계로 이루어지는 기존에 전체 시퀀스의 서열 정보가 보고되어 있는 레퍼런스 서열 정보를 수정하는 방법을 제공한다:

시험 서열을 디노보 게놈 어셈블리 (de novo genome assembly)로 게놈을 어셈블리하여 전체 서열을 재구성하는 단계;

레퍼런스 서열을 서로 비교하여 자가-유사 점도표 (self-similarity dot-plot)을 생성하는 단계;

레퍼런스 서열의 자가-유사 점도표 매트릭스 상에서 서열 갭을 확인하는 단계;

레퍼런스 서열 영역에 맵핑된 서열로 대응하는 위치의 서열을 선택하고, 디노보 게놈 어셈블리된 시험 서열을 서로 비교하여 자가-유사 점도표를 생성하는 단계;

상기 디노보 게놈 어셈블리된 시험 서열의 자가-유사 점도표와 레퍼런스 서열의 자가-유사 점도표를 크기 비율을 맞추어 한 화면에 정렬하여, 레퍼런스 서열에서 나타나는 서열 갭을 확인하는 단계; 및

디노보 어셈블리된 시험 서열로 레퍼런스 서열에서 나타난 서열 갭을 클로징하거나 또는 갭을 연장하는 단계.

본 발명의 레퍼런스 서열 정보의 수정방법은 추가적으로 로컬 재정렬 (local realignment) 또는 재어셈블리 (reassembly), 또는 스패닝 리드 (spanning reads)를 사용하는 단계를 포함할 수 있다.

보다 상세하게는, 본 발명의 서열 수정 방법이 사용될 수 있는 레퍼런스 게놈은 원핵생물, 진핵생물 또는 바이러스 게놈 서열 또는 그 일부, 바람직하게는 인간 게놈 서열, 동물 게놈 서열, 식물 게놈 서열, 박테리아 게놈 서열 또는 그 일부인 것인 방법을 제공한다.

아울러, 본 발명의 서열 수정 방법에서 시험 서열의 디노보 어셈블리는 PacBio SMRT 롱리드, BioNano Genomics 차세대 맵핑 (next-generation maps), Illumina HiSeq 쇼트리드 (short read), 10X Genomics GemCode 링크드 리드 및 BAC 클론 시퀀싱 방법 중 하나 이상의 방법을 조합하는 것일 수 있다.

또한, 본 발명의 방법에 따라 수정된 레퍼런스 서열 및/또는 디노보 어셈블리된 시험 서열과 비교하여, 대상 시험체의 게놈 서열 상의 단일염기다형성 (single nucleotide polymorphism, SNP), 삽입결실 (indel) 또는 구조 변이체 (structural variant, SV)를 포함하는 유전자 변이를 확인하는 방법을 제공한다.

아울러, 디노보 어셈블리된 시험 서열은 추가적으로 염색체 상의 하플로타입을 나타내도록 하플로티그의 디노보 어셈블리를 구성한 서열로, 본 발명은 대상 시험체의 게놈 서열 정보와 비교하여 하플로타입 특이적인 단일염기다형성, 삽입결실 또는 구조 변이체를 포함하는 유전자 변이를 확인하는 방법을 제공한다.

또한, 본 발명의 서열 수정 방법으로 수정된 레퍼런스 서열 정보를 이용하여 시험 서열과 레퍼런스 서열 상의 구조 변이체 (structural variant)를 탐색하여 질환 진단 및 표현형 다양성을 예측하는 방법을 제공한다.

추가적으로, 본 발명은 하기의 구성부를 포함하는 레퍼런스 어셈블리를 디노보 어셈블리로 수정하는 시스템을 제공한다.

상기 시스템은 시험 서열을 디노보 게놈 어셈블리 (de novo genome assembly)로 게놈을 어셈블리하여 전체 서열을 재구성하는 유전체 조립부;

레퍼런스 서열을 서로 비교하여 자가-유사 점도표 (self-similarity dot-plot)을 생성하는 점도표 생성부;

레퍼런스 서열의 자가-유사 점도표 매트릭스 상에서 서열 갭을 확인하는 점도표 분석부;

레퍼런스 서열 영역에 맵핑된 서열로 대응하는 위치의 서열을 선택하고, 디노보 게놈 어셈블리된 시험 서열을 서로 비교하여 자가-유사 점도표를 생성하는 점도표 생성부;

상기 디노보 게놈 어셈블리된 시험 서열의 자가-유사 점도표와 레퍼런스 서열의 자가-유사 점도표를 크기 비율을 맞추어 한 화면에 정렬하여, 레퍼런스 서열에서 나타나는 서열 갭을 확인하는 다중점도표 분석부; 및

디노보 어셈블리된 시험 서열로 레퍼런스 서열에서 나타난 서열 갭을 클로징하거나 또는 갭을 연장하는 서열 정보 교정부를 포함할 수 있다.

본 발명에 따른 방법의 레퍼런스 서열 정보의 수정은 갭 클로징하여 (gap closing) 레퍼런스 게놈의 완전성을 높여서, 구조 변이체 (structural variant) 탐색에 유용하게 사용할 수 있다.

본 발명에 따르면 기존의 인간 염색체 게놈 구조 분석을 위한 레퍼런스 게놈의 빈 서열을 채우기 위해 아시아인 특이적인 AK1으로 불리는 인간 염색체 게놈 구조의 서열을 분석하여 만든 게놈 서열로 만든 자가 점도표 (self-dot plot)과 기존 레퍼런스 게놈 서열의 자가 점도표를 만들어서 이 두개의 자가 점도표를 비교하여 각각의 서열의 빈 자리 위치를 알아낸 뒤 그 위치에 대응하는 상대의 서열을 본인의 빈자리에 서로 채워 넣는 방식을 제공하여, 기존 레퍼런스 게놈 구조 분석의 정확도를 높일 수 있다. 또한 수정된 기존 레퍼런스 게놈 서열과 AK1 어셈블리 서열의 직접적인 서열 비교를 통하여 신규한 염색체 구조적 변이 (SV) 부위를 분석할 수 있어 염색체 SV 정보를 이용한 상세한 질병정보 예측 및 진단에 활용할 수 있다.

본 발명은 분석 대상 생물체 게놈에 대해서 기존의 방법으로 어셈블리된 레퍼런스 게놈에 존재하는 갭을 클로징하여 정확도가 개선된 레퍼런스 게놈을 만들도록 레퍼런스 게놈 서열을 수정하는 방법에 관한 것이다. 한 실시태양에서 본 발명은 대상 생물체의 레퍼런스 게놈 서열의 갭을 클로징 하기 위해 대상 생물체 유래 시험 서열을 디노보 어셈블리로 재구성한다.

본 발명의 다른 실시태양에서 대상 생물체는 인간이고, 인간 레퍼런스 게놈 서열의 갭을 채우는 게놈 분석방법을 제공한다. 본 발명의 한 실시태양에서 디노보 어셈블리되는 시험 서열은 아시아인 게놈인 AK1 유래 서열이다. 현재 사용되고 있는 인간 레퍼런스 게놈 (GRCh38)은 주로 백인 및 흑인 유래의 것으로, 일반적인 연구 및 의약적 응용을 위한 목적의 유니버설 레퍼런스로 사용되고 있다. 하지만, 아시안에 특이적인 변이체와 같이 인종 특이적인 변이체는 이러한 유니버설 레퍼런스에서 대표되고 있지 않다 (Kim 2016). 따라서, 유전자 빈도 및 구조적 변이를 포함하는 다양성을 맵핑하기 위한 연구 노력들은 인종적 특이성을 반영할 수 있는 신규한 레퍼런스로부터 많은 혜택을 받을 수 있다.

도 1은 롱리드 시퀀싱 플랫폼, 쇼트리드 시퀀싱 플랫폼, 게놈 맵핑 플랫폼 등의 시퀀싱 기술을 이용하여 디노보 어셈블리로 아시안 게놈 AK1 게놈을 어셈블리하고 디노보 어셈블리된 AK1 서열 정보에 기초하여 레퍼런스 게놈에 존재하는 갭을 클로징하고 게놈 특이적인 변이체를 분석하는 과정을 나타낸 흐름도이다.
도 2는 디노보 어셈블리된 아시안 게놈 AK1 어셈블리와 BAC을 이용하여 레퍼런스 게놈에 존재하는 갭을 클로징한 예 (gap_367)와 갭을 연장한 예 (gap_368)을 나타낸다.
도 3은 디노보 어셈블리된 아시안 게놈 AK1 어셈블리를 이용하여 다중점도표를 작성하여 레퍼런스 게놈의 갭을 클로징한 예 (gap_367)와 갭을 연장한 예 (gap_368)를 나타낸다.
도 4는 디노보 어셈블리된 아시안 게놈 AK1 어셈블리를 이용하여 각 염색체 상에 존재하는 갭 수 (그레이) 대비 클로징된 유크로마틴 갭의 수 (레드)를 나타낸다.
도 5는 AK1 어셈블리만으로 클로징되는 갭의 수, 로컬 어셈블리로 클로징되는 갭의 수, 롱리드만으로 클로징되는 갭의 수를 나타내는 그래프이다. 또한, AK1 어셈블리만으로 연장되는 갭의 수, 롱리드로 연장되는 갭의 수 및 오픈 갭의 수를 나타낸다.
도 6은 기존 레퍼런스 게놈인 GRCh37과 AK1 어셈블리를 염기수준의 해상도 (base resolution)로 직접 비교하여, 결실, 삽입, 전좌 및 복합 변이체의 전체적인 분포를 확인한 것이다. 바깥쪽 파이그래프가 각 SV 유형 중 신규한 유형을 나타낸다. 확인된 전체 18,210개의 SV 중 총 65% (11,927개)의 SV가 기존에 보고된 적 없는 신규한 SV이다.
도 7은 기존에 보고된 SV들과 비교하여, AK1과 GRCh37를 비교했을 때 삽입 및 결실 변이체의 분포를 나타낸 것이다.
도 8은 45종의 아시안 특이적 삽입 변이체에서 대립유전자 빈도를 나타낸 것이다.
도 9는 ANO2에서 아시안 특이적 삽입체가 동아시안 (East Asian, EAS) 링크 불평형 (linkage disequilibrium, LD) 블록 내에서 일어나는 것을 나타낸다.
도 10은 이형접합체 영역의 게놈-와이드 맵과 하플로타입 A와 하플로타입 B의 발현을 로그 스케일로 나타낸 것이다.
도 11은 하플로타입 페이징된 MHC 클래스 II 영역에서 HLA 유전자를 나타낸다.
도 12는 디노보 어셈블리 기반 페이징으로 확인한 CYP2D6와 CYP2D7의 하플로타입을 나타낸다.
도 13 내지 16은 디노보 어셈블리된 시험 서열인 AK1 어셈블리와 레퍼런스 게놈 GRCh38의 다중점도표 분석으로 레퍼런스 서열에서 클로징된 갭의 예를 나타낸다.

본 발명은 본 개시내용의 일부를 형성하는 첨부된 도면 및 실시예와 관련된 하기의 상세한 설명을 참고함으로써 보다 쉽게 이해될 수 있다. 본 발명은 본원에 기술되고/거나 제시된 구체적인 장치, 방법, 적용, 조건 또는 파라미터로 제한하고자 하는 것이 아니며, 본원에서 사용된 용어는 단지 일례로서 특정 실시태양을 기술하고자 하는 것이며, 청구하는 본 발명을 제한하고자 하는 것이 아님을 이해하여야 한다.

본원에 기재된 본 발명의 특정 특정은 개별적인 실시태양으로 또는 그 조합으로 제공될 수 있다는 것을 이해하여야 한다.

본 발명에서 레퍼런스 게놈 서열이 수정되는 대상 생물체의 게놈은 원핵생물, 진핵생물, 박테리아, 바이러스, 동물, 식물, 또는 인간의 게놈 서열 또는 그 일부일 수 있다. 본 발명의 실시태양으로 레퍼런스 게놈 정보가 수정되는 대상 생물체 게놈은 인간 게놈일 수 있다. 레퍼런스 게놈 서열은 GRCh37 또는 GRCh38을 사용할 수 있다. 디노보 어셈블리되는 시험 서열로는 아시안 게놈 서열인 AK1을 사용할 수 있다. 한국인 개인 AK1 게놈은 레퍼런스 게놈과 비교하였을 때 현격한 구조적 차이를 보여주고 있어, 레퍼런스 게놈 분석만으로는 힘든 인종별 특이성을 반영할 수 있는 게놈이다.

디노보 어셈블리되는 시험서열로 사용된 게놈은 PacBio SMRT 롱리드, BioNano Genomics 차세대 맵핑 (next-generation maps), Illumina HiSeq 쇼트리드, 10X Genomics GemCode 링크드 리드 및 BAC 클론 시퀀싱 방법 중 하나 이상의 방법을 조합하여 어셈블리될 수 있다.

NGS 시퀀싱 방법은 리드의 길이에 따라 쇼트리드를 이용하는 방법과 롱리드를 이용하는 방법으로 구별할 수 있다. 쇼트리드 NGS 시퀀싱 방법은 크게 라이게이션을 이용하는 방법과 합성을 이용하는 방법 두가지 카테고리로 나뉘며, 전자는 프로브 시퀀스와 형광물질을 붙이고 이미징 하는 것이 특징이고, 후자는 형광물질을 폴리머레이즈를 통해서 붙여서 이미징 하는 것이 특징이다. 라이게이션을 이용한 방법에는 SOLiD, Complete Genomics 등이 있으며, 합성을 이용한 방법에는 Illumina, Qiagen 등의 CRT (cyclic reversible termination)방식과, 454 GS, Ion Torrent platform 등의 SNA (single-nucleotide addition) 방식이 있다. 롱리드를 이용한 시퀀싱 방법은 SMRT방식과 쇼트리드들을 가상의 롱리드 구조로 만들어서 사용하는 합성기반 방식의 두가지 카테고리로 나뉜다. SMRT를 이용한 방식으로는 PacBio 시퀀싱, ONT (Oxford Nanopore Technologies), HeliScope (Helicos), Starlight (Life Technologies) 등이 있으며, 가상의 롱리드를 만드는 방법으로는 Illumina Synthetic 롱리드, 10X Genomics (emulsion-based) 플랫폼 등이 있다 (Goodwin et al., 2016).

NGS 기기에 사용된 기술로는 크게 3가지 기술로 클론 증폭기술, 대량병렬 방법, 사이클릭 시퀀싱을 통한 합성신호읽기 (sequencing by synthesis)가 있다. Roche사의 GS FLX사와 Life Technology사의 SoLid5500 시리즈, Illumina사의 Genome Analyzer HiSeq의 대표적인 NGS 기술을 사용한 시퀀싱 방법을 제공한다 (권선일 2012).

차세대 NGS 기술인 롱리드 시퀀싱 방법으로는 실시간 롱리드 시퀀싱 플랫폼 기술과 합성 롱리드 시퀀싱 플랫폼 기술이 있다. 실시간 롱리드 시퀀싱 플랫폼으로는 Pacific Biosciences (PacBio)의 SMRT 기술, Oxford Nanopore Technologies (ONT)을 사용할 수 있으며, 합성 롱리드 시퀀싱 플랫폼 기술로는 Illumina사의 합성 롱리드 기술로 HiSeq2500과 10X Genomis의 에멀젼 기반 시퀀싱 기술이 사용될 수 있다.

Illumina사의 시퀀싱 방법은 100bp 단위의 쇼트리드들을 생산하여 전체 염기서열을 읽는 방식이며 시간이 오래 걸리나 짧은 리드 길이로 에러율은 적은 편이고, PacBio의 시퀀싱 방법은 평균 10kbp 단위의 롱리드들을 이용하고 짧은 시간에 많은 분석이 가능하지만 에러율이 높은 편이다. BioNano Genomics의 방법은 평균 100kbp 이상의 매우 큰 범위의 분석이 가능하지만 취약한 사이트 (fragile site)가 발생하며, 완벽한 라벨링이 힘든 편이다.

Illumina사의 Genome Analyzer의 경우 기판 위에 어뎁터와 상보적인 프라이머를 고정시켜 놓았다. 단일 DNA 단편을 어뎁터와 라이게이션 시킨 후 이것을 기판 위에 충분한 간격을 두고 프라이머에 혼성화 한다. 이 상태에서 브릿지 증폭 (bridge amplification)이 일어나게 한 후 그 자리에서 다음 과정인 사이클링 시퀀싱이 일어나게 한다. 서열을 읽어 들이는 것으로 Genome Analyzer HiSeq를 사용하며, 이것은 형광 tag DNA 합성법을 사용한다. 네 가지 dNTPs(A, T, G, C)에 각기 다른 형광을 tag하여 새로 합성되어 들어오는 뉴클레오티드를 색깔로 구분하여 염기서열 정보를 읽어 들인다.

Pacific Biosciences에서는 단일 DNA 분자 시퀀싱을 개발하였으며 SMRT (single molecule, real-time) 기술로 불린다. 시퀀싱 칩의 바닥에 단 한 분자의 DNA 중합 효소가 결합되어 있고 이곳에서 주형 DNA 단편과 시퀀싱 반응을 일으키고 실시간으로 반응을 탐지하여 염기서열을 읽는다. 뉴클레오티드의 인산기 끝에 형광이 부착되어 염기결합반응이 일어나면 형광 분자가 탈락하여 형광펄스가 중단되는데 이 신호변화를 탐지하며 2세대 시퀀서처럼 CCD 카메라를 사용한다.

BioNano Genomics는 IrysPrep kit으로 DNA 분자를 세포에서 추출하여, IrysPrep 라벨링된 DNA를 닉 (Nick) 사이트를 포함하는 특정 서열 모티프 (motif)에 붙여 레이블링 한 뒤 IrysChip이 NanoChannel 어레이에서 DNA를 선형화 (linearize) 시키면, Irys 기기가 NanoChannel 어레이를 사용하여 단분자의 이미지화를 자동으로 처리한다. 분자들과 라벨들이 기기의 소프트웨어 통하여 이미지로 만들어져 나오면 이것을 IrysView 소프트웨어로 시각화 (optical) 매핑하는 방식이다.

게놈 서열정보를 재조립하는 “어셈블리 (assembly)”는 이미 서열이 알려진 레퍼런스 서열에 리드를 정렬하여 길게 재조합해 나가는 방식의 “레퍼런스 어셈블리 (reference assembly)”와 레퍼런스 없이 새롭게 재조립하는 “디노보 어셈블리 (de novo assembly)”로 구분한다. “디노보 어셈블리 (de novo assembly)”는 레퍼런스 게놈에 의존하지 않고 리드의 염기 서열 정보를 이용하여 원래의 전체 서열로 추정되는 서열로 리드들을 재구성하는 방식을 말한다. 디노보 어셈블리 방법을 위한 알고리즘으로는 Greedy 그래프 방법, OLC (Overlap-Layout-Consensus) 방법, De Brujin 그래프 방법 등이 사용될 수 있다.

NGS 리드 데이타를 사용하여 레퍼런스 시퀀스에 대한 사정 정보 없이 디노보 어셈블리를 하는 경우 길이가 긴 리드가 많을수록 긴 컨티그를 구성하며, 반복 구간이 줄어들어 어셈블리의 정확도를 높일 수 있다.

본 발명에서 레퍼런스 게놈 어셈블리 정보의 수정은 바람직하게는 갭 클로징 (gap closing) 또는 구조 변이체 (structural variant)를 확인하는 것일 수 있다. 갭은 서열을 읽기 힘든 부분 또는 서열이 반복된 부분에 많이 존재한다. 갭은 크게 “스팬된 갭 (spanned gap)”과 “스팬되지 않은 갭 (unspanned gap)”으로 나눌 수 있다. 스팬된 갭은 두 인접하는 컨티그의 말단 부분이 말단 시퀀싱된 플라스미드로 연결되어 있는 것이다. 이들 갭의 대부분은 프라이머로 시퀀싱하여 클로징될 수 있고, 컨티그의 시퀀스를 연속적으로 연장하여 갭을 클로징할 수 있다. 스팬되지 않은 갭은 한 컨티그의 말단이 다른 컨티그의 말단에 연결되지 않은 것이다. 이들은 다른 방법으로 인접성을 추정하고 시퀀스를 연장하는 것이 필요하다. 사용될 수 있는 기술로는 다른 컨티그에 PCR을 하거나 BAC의 서브클론에 다양한 형태를 분석하거나 또는 BAC 상에서 프라이머 워킹을 직접 수행하는 것이다 (Nature 2004).

본원발명에서 "갭의 클로징 (closing)", "닫힘 (closed)" 또는 "갭의 필링 (filling)", "채움 (filled)"은 갭의 서열을 모두 밝혀 갭을 거의 완전히 없앤 경우를 의미한다. 갭의 "연장 (extending)", "연장됨 (extended)"은 갭의 양 끝의 일부분의 서열이 새롭게 메워졌을 경우를 의미한다.

본 발명에 따라 레퍼런스 게놈 서열 정보를 수정하기 위한 시험 서열로 디노보 어셈블리된 게놈 서열을 이용하여 다중점도표 분석 방법을 사용하는 방법을 제공한다. 구체적으로 본원발명에서는 시험 서열로 디노보 어셈블리된 AK1 게놈 어셈블리를 사용하여 인간 레퍼런스 게놈 GRCh37 또는 GRCh38에 남아 있는 갭을 클로징할 수 있었다.

본원발명의 레퍼런스 서열 정보의 수정 방법은 추가적으로 로컬 재정렬 (local realignment) 또는 재어셈블리 (reassembly), 또는 스패닝 리드 (spanning reads)를 사용하는 단계를 포함할 수 있다. 로컬 재정렬 또는 재어셈블리는 리드를 레퍼런스에 정렬하여 주변에 맵핑되는 것들을 위주로 재정렬 또는 재어셈블리하는 과정을 의미한다. 스패닝 리드는 하나의 갭을 완전히 커버할 수 있는 리드를 의미한다. 이들 방법은 당업자들에게 알려진 통상의 방법을 사용할 수 있다.

일 구체예에서 도 1에 나타낸 바와 같이 PacBio 플랫폼, Illumina 플랫폼, GemCode 플랫폼을 사용하여 시험 서열의 게놈을 시퀀싱하여 디노보 게놈 어셈블리를 하여 전체 서열을 재조합한다. PacBio 플랫폼을 이용하여 SMRT 시퀀싱을 수행하고, 리드를 어셈블리하고 FALCON 및 Quiver를 사용하여 에러를 수정하여 3,128개의 컨티그를 생성한다 (N50 길이 17.9Mb). 이렇게 얻어진 컨티그를 스캐폴드를 어셈블리하는데 사용한다. BioNano Genomics Irys 시스템을 사용하여 물리적 매핑을 수행한다. Irys 시스템은 차세대 매핑 (next-generation mapping, NGM)으로 얻어진 컨티그를 보다 큰 스캐폴드로 매핑하는 프로그램이며 특이한 서열 모티프들을 이용하여 물리적 맵을 생성하여 게놈의 큰 범위의 구조에 대한 정보를 얻는 것이다. SMRT 기술을 사용하여 얻은 시퀀싱 정보로 만들어지는 롱리드들보다 더 긴 범위에서 서열의 구조를 시각화 (optical)하는 정보를 제공하여 스캐폴드를 만드는 매핑 정보를 제공한다. 컨티그와 게놈 맵을 통합해서 하이브리드 스캐폴딩을 생성한다. Illumina 리드를 사용하여 폴리싱 (polishing)하여 최종 어셈블리를 생성한다. Illumina의 Hiseq X는 쇼트리드들을 페어드 엔드 (paired-end) 형태로 라이브러리로 만든 다음 시퀀싱을 하여 디노보 방식으로 조립하는 시스템으로 저렴하게 많은 처리 가능하고 정확도가 높은 정보를 제공가능한데, PacBio 시스템의 롱리드들에서 얻은 정보의 오류를 폴리싱하는 Pilon에 정보를 제공한다. 이들 3개의 플랫폼을 이용하여 수정되고 얻어진 AK1 어셈블리의 정보를 레퍼런스 게놈과 정렬 및 비교 분석하여 갭을 채운다.

본 발명에서는 디노보로 어셈블리된 시험 서열의 어셈블리를 이용한 다중점도표 분석 방법을 통해 레퍼런스 게놈의 서열 정보를 빠르게 수정하는 게놈 분석 방법을 제공한다. 바람직하게는 본 발명에서 디노보 어셈블리된 시험 서열의 어셈블리로는 아시안 인종 특이적인 AK1 어셈블리를 사용할 수 있다.

다중점도표 분석 방법은 레퍼런스 게놈 어셈블리와 독립적으로 시험 서열의 디노보 어셈블리를 재구성하고, 기존에 보고된 레퍼런스 게놈 어셈블리와 디노보 어셈블리된 시험 서열의 자가 점도표를 각각 생성하고, 이들 자가 점도표를 한 화면 상에 대응하는 위치에 정렬하여 레퍼런스 게놈에 존재하는 갭을 해결하는 것이다.

“자가 유사 점도표 (self-similarity dot-plot)” 또는 “자가 점도표”는 선택된 서열을 각각 x-축, y-축에 놓고 서로 비교하는 것이다. 디노보 어셈블리된 시험 서열과 레퍼런스 서열 각각의 자가 점도표를 작성한다. 자가 점도표에서 동일한 서열의 정보를 가로축 x-축과 세로축 y-축에 배치하여 갭이 존재하는지 여부와 갭의 크기를 확인한다. 시험 서열의 자가 점도표와 레퍼런스 서열의 자가 점도표를 크기 비율을 맞추어 한 화면에 정렬한다. 서로의 염색체 상 위치 정보 (coordinate)를 비교하여 염색체 상 위치 정보가 원하는 위치에 대응되도록 조정한다. 다중점도표는 임의의 두 서열을 비교하여 작성할 수 있으나, 유의성 있는 다중점도표를 얻기 위해서는 일정 수준 이상의 유사성을 갖는 두 서열을 비교하는 것이 바람직하다. 다중점도표를 작성하기 위해 갭을 포함하는 레퍼런스 서열 영역 부근에 대응하는 디노보 어셈블리된 시험 서열 영역을 선택하기 위해서는, 서열의 대응관계를 분석하는 통상의 프로그램 (예: LASTZ)을 사용할 수 있다. 조정이 완료된 다음 두 자가 점도표의 정보를 비교하여 레퍼런스 게놈의 자가점도표에서 갭으로 존재하는 부분을 시험 서열의 어셈블리, 바람직하게는 AK1 게놈의 디노보 어셈블리의 자가 점도표에서 확인하여 갭을 클로징하거나 연장한다. 갭이 해결된 레퍼런스 게놈 서열 또는 디노보 어셈블리된 시험 서열 대비 대상 시험체의 게놈 서열을 비교하여 구조적 변이를 확인하는데 사용할 수 있다.

아울러, 본 발명에서는 페이징 방법으로 하플로이드의 디노보 어셈브리를 재구성하여 레퍼런스 게놈과 비교하여 하플로타입 특이적인 대립유전자를 확인하는 방법을 제공한다.

하플로티그는 다음과 같은 과정을 통해 생성하였다. Illumina의 Gemcode 플랫폼은 바코드 처리된 프라이머와 비드를 하나의 긴 DNA와 함께 함께 PCR을 하여 GEM이라는 바코드를 지닌 형태로 증폭과정을 거쳐 리드들을 생성하고 풀을 만든다. 풀에 있는 리드들은 같은 GEM 유래라면 같은 바코드를 공유하게 되는데, 이를 링크드 리드라고 한다. 이 링크드 리드들로 디노보 페이징을 수행하고, 컨티그로 어셈블리하여 하플로티그 (하플로이드와 컨티그의 합성)을 생성한 뒤 이를 통하여 SV 정보를 분석할 수 있다. 이러한 SV 정보 분석을 통하여 기존에 알려진 인간 레퍼런스 게놈의 SV 정보와 비교 분석하였다.

본 발명의 방법에 따라 수정된 레퍼런스 서열 및 디노보 어셈블리된 시험 서열과 비교하여 대상 시험체의 게놈 서열 상의 단일염기다형성 (single nucleotide polymorphism, SNP), 삽입결실 (indel) 또는 구조 변이체 (structural variant, SV)를 포함하는 유전자 변이를 확인하는 방법에 사용할 수 있다. 추가적으로 염색체 상의 하플로타입을 나타내도록 시험 서열의 하플로티그의 디노보 어셈블리를 구성하여 대상 시험체의 게놈 서열 정보와 비교하여 하플로타입 특이적인 단일염기다형성 (SNP), 삽입결실 (indel) 또는 구조 변이체 (SV)를 포함하는 유전자 변이를 확인하는 방법에 사용할 수 있다. 이러한 유전자 변이의 확인에 기초한 유전체 정보 분석을 통해 유전자 변이에 대한 기능 연구, 특히 질환연관 유전자 변이에 대한 기능 연구, 질환의 진단 및 표현형의 발현 분석에 활용할 수 있다. 유전체 정보 분석의 일 실시태양으로 질환연관 기능분석을 통해 질환의 진단 및 치료에 사용하여 개인 맞춤형 정밀 의료 방법의 개발에 사용될 수 있다. 추가적인 실시태양으로 인종 특이적, 특히 아시안 인종 특이적 대립유전자 발현 분석 방법으로 사용될 수 있다.

이하 본 발명을 실시예를 통하여 보다 상세하게 설명한다. 그러나, 이들 실시예는 본 발명을 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.

AK1 어셈블리

디노보 어셈블리되는 시험 서열로 사용한 AK1 어셈블리를 얻기 위한 과정을 구현한 실시예는 다음과 같다. 아래 실시예의 방법은 이건 출원에 참조문헌으로 삽입된 논문 (Seo 등 2016)에 따랐다.

AK1 세포주의 준비

불멸화된 림프아세포구 (lymphoblastoid) 세포주는 개별 AK1에서 얻었으며, 이는 단핵세포의 Epstein-Barr 바이러스 이식 접종을 거쳐서 만들었다 (Seoul Clinical Laboratories Inc.). 모든 병원체 테스트가 수행되었으며 마이코플라스마 (mycoplasma)가 없는 시설에서 유지 저장 되었다. AK1 림프아세포구 세포주는 15% FBS 함유 RPMI 1640 배지에 37℃의 습기가 있는 5% 이산화탄소 환경에서 배양되었다. 개별적 AK1의 승인번호 C-0806-023-246은 서울대 기관감사위원회의 가이드라인에 기초하여 부여되었다.

PacBio 데이터 생성

게놈 DNA를 AK1 세포들로부터 추출하였으며 Gentra Puregen Cell Kit (Qiagen)을 사용하였다. 라지-삽입체 PacBio 라이브러리 제조에 사용되었으며 Pacific Biosciences 권장 프로토콜을 따랐다. 요약하자면, 총 60μg의 AK1 게놈 DNA가 Covaris g-TUBEs (Covaris)를 사용하여 ~20kb까지의 정해진 사이즈로 잘랐다. 각 잘려진 게놈 DNA는 Agilent 2100 생물학적분석장치 DNA 12000 칩 (Agilent Technologies Inc.)으로 크기 별 배분 및 진행된 DNA 데미지 복구/ 말단 복구, 블런트-엔드 (blunt-end) 어댑터 라이게이션 (ligation) 처리 후 핵산 말단 분해효소로 소화 (digestion) 단계를 거쳤다. 정제된 소화 생성물들은 미리-주입된 0.6% 아가로즈 (agarose)에 로딩되었고 7-50kb사이즈 선별을 위하여 BluePippin 사이즈 선별 시스템 (Sage Science), 그리고 복원된 사이즈-선별 라이브러리 결과물들은 0.5x의 미리 세척된 Agencourt AMPure XP 비드 (Beckman Coulter) 를 사용하여 정제하였다. 최종 라이브러리들은 Agilent 2100 생물학적분석장치 DNA12000 칩 (Agilent Technologies Inc.)을 사용하여 사이즈 구배를 시험하였고 및 라이브러리 농도는 Qubit2.0 형광미터 (Life Technologies)를 사용하여 측정하였다. 본 발명자들은 P6 폴리머라제 바인딩 C4 화학키트 (P6C4)를 포함하는 PacBio RSII 장치를 사용하여 시퀀싱하였다. 총 380개 SMRT Cells이 101-폴드 전체-게놈 서열 데이터를 얻기 위하여 사용되었다.

BioNano 게노믹스 (genomics)을 위한 샘플 준비

AK1 세포들을 펠렛 (pellet)화 하고 인산완충용액 PBS로 세척하였다. 최종 세포 펠렛은 세포-부유 버퍼로 재-부유하였으며 CHEF 포유류 게놈 DNA Plug Kit (Bio-rad)를 사용하였다. 이후 세포들을 CleanCut 저온-용융 아가로즈 (Bio-rad)에 함포되어 조절된 지지체 (BioNano genomics에서 자체개발)의 얇은 층에 펼쳤다. 세포들을 IrysPrep 용해 (lysis) 버퍼 (BioNano genomics)를 사용하여 용해하였으며, Puregene Proteinase K (Qiagen)를 사용하여 프로테아제 처리하고, 50mM EDTA Tris 로 간단히 워싱하고 나서 1mM EDTA Tris로 워싱한 뒤 Puregene RNase (Qiagen)을 사용하여 RNase 처리하였다. 이후 DNA는 50mM EDTA Tris로 평형을 맞추었고 (equilibrated) 4℃에서 하룻밤 배양한 뒤 0.1mM EDTA Tris로 추가 세척하였고 NEBuffer3 (New England BioLabs)로 1x 농도로 평형을 맞추었다. 얇은 층의 아가로즈에 있는 정제된 DNA는 아가로즈 라벨링을 위한 IrysPrep Reagent 키트 적용 프로토콜에 따라 라벨링 되었다. 간단히 말해서, DNA 1.25μg 이 0.7U Nt.BspQI 절단 핵산분해효소로 마이크로리터 당 반응 볼륨으로 NE버퍼3 (New England BioLabs)에 37℃, 130분간 처리하여 소화되고, 이후 TE Low EDTA 버퍼 (Affymetrix), pH 8.0에서 세척된 뒤 1x ThermoPol 반응 버퍼 (New England BioLabs)로 평형을 맞추었다. 닉-분해된 (nick-digested) DNA는 이후 70분간 50℃에서 IrysPrep 라벨링 믹스 (BioNano genomics) 및 Taq DNA 폴리머레이즈 (New England BioLabs)로 최종 농도 0.4 U μl^-1의 농도로 배양되었다. 절단-라벨링된 DNA는 40분간 37℃에서 IrysPrep 복원 믹스 (BioNano genomics) 및 Taq DNA 라이게이즈 (New England BioLabs)로 최종 농도 1 U μl^-1의 농도로 배양되었다. 라벨링-복원화된 DNA는 이후 얇은 층 아가로즈로부터 회수되고 GELase 및 IrysPrep DNA 스테인 (BioNano genomics)을 사용하여 카운터스테인 (counter-stained)한 것으로 Irys 시스템에서 데이터를 수집하였다. 취약한 사이트를 구하는 절차를 통하여 취약 (fragile) 사이트들을 구했으며 여기에는 라벨링 반응 시 온도를 낮추고 아가로즈에 있는 DNA를 리스트레이닝하여 절단력을 최소화하여 절단 부분이 회복될 수 있도록 하는 방식이 사용되었다. 이 방식은 가장 인접한 반대-스트랜드 절단-쌍만 (opposite-strand nick-pairs)을 파괴한다.

젬코드 플랫폼을 사용한 시퀀싱 라이브러리의 준비

샘플 인덱싱 및 분할 바코드 처리 라이브러리는 젬코드 젤 비드 및 라이브러리 키트 (10x Genomics)를 사용하여 준비하였다. 시퀀싱은 Illumina Hiseq2500를 사용하여 연결된 리드들을 생성하여 수행되었다.

Illumina 데이터 생성

라이브러리는 PCR 하지 않는 프로토콜로 생성하였다. gDNA는 Covaris S2를 사용하여 2번 절단되며 사이클링 조건은 10% 의무 사이클, Cycle/Burst 200, 및 시간 100초로 하였다. 절단된 DNA는 Illumina TruSeq DNA PCR없는 LT 라이브러리 키트 프로토콜을 사용하여 절단하여 550bp의 삽입체들을 생성하는데 사용하였으며, 엔드 리페어 (end repair), SPRI 비드 사이즈 선별, A-테일링, 및 Y-어댑터 라이게이션을 포함한다. 라이브러리 농도는 qPCR로 측정되고 HiSeq X Ten 장비들 (PE-150)에 장전되어 72-폴드 서열 커버리지를 생성하였다.

BAC 클론으로부터 DNA 준비

총 32,026개의 BAC 클론들을 252개의 384-웰 플레이트에서 선택하였으며 96웰 플레이트로 다시 플레이팅 하였다. 클론들을 하룻밤 동안 배양하였으며, 배양물은 2개의 추가 복제물들을 준비하기 위해 2개의 384-웰 플레이트에 다시 나누었고 -80℃의 20% 글리세롤 함유 LB 배양액에 저장되었다. 총 32,026개의 클론배양물이 OD 범위 0.6 내지 1.0에서 자라서 모아지고, 펠렛화 되고 DNA가 추출되었으며 이때 표준 (standard) 염기 용해 방법이 사용되었다. 이 과정에서, 세포 펠렛은 150μl Qiagen 버퍼 P1 과 RNase에 재부유 (resuspension)하였고 150μl 0.2M 수산화나트륨 농도, 1% SDS 용액에서 5분간 용해하였다. 용해물에 150μl의 3M 아세트산 나트륨, pH 4.8의 용액을 추가하여 중화하였다. 중화된 용해물은 얼음에서 30분간 배양되었으며, DNA는 15분간 15.7g, 4℃ 조건에서 원심 분리하여 수집하였고, 표준 에탄올 침강법을 사용하여 농축한 뒤 25μl 10mM Tris-HCl, pH 8.5 용액에 재부유 하였다.

BAC 클론들의 PacBio 시퀀싱

약 150개의 BAC 클론들에서 대체로 등몰 (equimolar) 농도의 DNA를 하나의 싱글 풀로 합하였다. 각 풀 DNA의 총 10mg을 절단하고 10 내지 15kb 크기 범위의 삽입체 단편을 선택하였다. PacBio smrtBELL 라이브러리 제조 키트 v1.0을 사용하여 두 종의 라이브러리를 생성하였다. 라이브러리를 Qubit 2.0 형광미터로 정량화하고, 각 라이브러리를 P6C4 케미스트리를 갖는 두종의 SMRT 셀로 시퀀싱하였다.

BAC 클론들의 Illumina 시퀀싱

약 290개의 BAC 클론들에서 얻은 대체로 등몰 농도인 DNA는 하나의 싱글 BAC 풀로 합쳐졌다. 각 풀에서 얻은 1ng DNA는 소화되어 500bp 내지 550bp 범위의 삽입 사이즈를 가지는 단편들이 선택되었다. DNA 풀에서 총 109개의 라이브러리들을 제조하였다. Illumina-compatible Nextera XT DNA 샘플 제조 키트를 사용하였고 HiSeq2500로 시퀀싱 하였다.

RNA 시퀀싱을 위한 샘플 준비

본 발명자들은 조직에서 RNA를 추출하기 위해 RNAiso Plus (Takara Bio)를 사용하였고 RNeasy MinElute (Qiagen)를 사용하여 정제하였다. RNA 품질을 측정하고 양을 측정하기 위해 2100 Bioanalyzer (Agilent) 상에서 RNA 6000 Nano LabChip을 사용하였다. RNA 시퀀싱 (RNA-seq) 라이브러리들은 앞서 기술한 바와 같이 준비하였다. RNA 라이브러리는 HiSeq 2000 시퀀서 (Illumina) 상에서 Illumina TruSeq SBS 키트 v3로 100bp 시퀀싱하여 페어드-엔드 (paired-end) 리드들을 생성하였다. 이미지 분석들 및 베이스 콜링 (base calling)은 Illumina 파이프라인의 디폴트 세팅을 사용하여 수행하였다.

이성질체 (isoform) 시퀀싱을 위한 샘플 준비

RNA 완전성 수치 (RIN, RNA integrity number) > 8.0인, AK1 세포들로부터 추출된 모든 RNA를 라이브러리 준비에 사용하였다. 라이브러리는 Clontech SMARTer-PCR cDNA 합성 샘플 준비 가이드를 따라 제작되었다. 1-2kb, 2-3kb, 3-6kb 및 > 5kb 크기의 라이브러리들이 Sage에 의해 선택되었으며, ELF 정제되고, 엔드-리페어드된 (end-repaired) 블런트-말단 SMRTbell 어댑터들이 접합 (lygate)되었다. 단편 사이즈 구배는 Bioanalyzer HS 칩 (Agilent)으로 확인하고 Qubit 형광미터 (Life Technologies)로 정량하였다. 시퀀싱은 P6C4을 사용한 PacBio RSII 장비로 수행하였다.

PacBio 롱리드 디노보 어셈블리

약 3,100만개의 서브리드들을 사용하여 FALCON v0.3.0로 어셈블리를 하였고, 길이 컷오프 파라미터를 10kb로 주어서 미리 어셈블리 된 리드 (pread라 함)를 최초 매핑하고, 15kb가 넘는 pread (길이-컷오프-pr이라 함)들은 어셈블리 된 컨티그의 N50을 최대화하기 위하여 사용하였다. 일차 및 연관된 컨티그들은 Quiver5로 폴리시 (polish) 하였다.

BioNano 게노믹스 게놈 맵 생성

BioNano 어셈블러 소프트웨어 (Irys 시스템, BioNano Genomics)를 사용하여 광학 맵들 (optical maps)을 디노보 어셈블리하여 게놈 맵을 생성하였다. 최소 8개 이상의 형광 라벨들을 가진 150kb 보다 긴 단분자들을 사용하여 가능한 오버랩들 (P < 1 × 10^-10)을 확인하였다. 다음, 이 맵들은 컨센서스 맵 (consensus map)을 구성하는데 사용하였으며 매핑된 단분자들로 재귀적 개량 (recursively refining) 및 연장하여 제작되었다 (P < 1 × 10^-5). 컨센서스 맵들은 대조하여 패턴이 매치될 때 게놈 맵으로 병합하였다 (P < 1 × 10^-10). 이후 두번째 세트의 광학 맵을 얻고, 동일한 기준으로 게놈 맵을 생성하였다.

컨티그 편집 및 하이브리드 어셈블리

초기 컨티그들은 가상 (silico) cmap 들로 소화되었으며 스캐폴드화 (scaffolding)를 위하여 게놈 맵들과 비교하였다. 스캐폴드 과정은 시각화하여 나타냈으며 Irys 뷰어를 사용하였다. 교착 (conflict) 발생시 컨티그들은 게놈 맵 가이드를 따라 편집되었다.

어셈블리 향상

페어드-엔드 (paired-end) 리드들은 Illumina 플랫폼에서 얻어서 bwa mem을 사용하여 어셈블리로 정렬한 다음, Picard 툴을 사용하여 중복 제거를 수행하였다. 어셈블리의 염기-쌍 (base-pair) 수정은 Pilon을 사용하여 수행하였다. Pilon은 호모폴리머가 많은 영역 (region)들의 싱글 삽입과 삭제 부위들을 대부분 수정하였다. 잘못된 어셈블리를 피하기 위해서 10kb보다 짧은 컨티그들 또는 스캐폴드들을 전체 분석에서 제외하였다.

BAC 클론들로 스캐폴드의 정확성 측정

AK1 어셈블리의 스캐폴드화의 정확도는 AK1 BAC 라이브러리를 사용하여 평가하였다. AK1 BAC 말단 시퀀스 (BES, BAC end sequence)는 BWA를 사용하여 GRCh37과 GRCh38 및 AK1 어셈블리들과 정렬되었다. BES 배치들은 정렬, 방향성 (orientation), 및 BES의 분리별로 각각의 어셈블리를 사용하여 카테고리화 되었다. BES 배치는 다음 조건에 일치되도록 결정되었다: (1) BES 배치가 같은 어셈블리 유닛에 놓이는가; (2) 페어드-엔드 시퀀스의 방향이 적절한지; 그리고 (3) 인 실리코 (in silico) 삽입 사이즈가 50,000bp 내지 250,000bp 사이에 있는지. 만약 BES 배치가 이러한 조건들을 만족시키지 못한다면, BES 배치는 부조화 (discordant)로 정의되었다. 추가로, 페어드-엔드 시퀀스들 중 하나만이 어셈블리에 정렬되는 경우에는, BES 배치는 오펀 (orphan) 배치로 정의되었다. 만약 페어드-엔드 시퀀스들이 어셈블리의 다른 위치에 여러 번 정렬되는 경우에는 BES는 복수의 배치들을 갖는 것으로 정의되었다.

다중점도표를 이용한 레퍼런스 게놈 정보의 수정

갭 클로징 및 SV 분석: 레퍼런스 게놈으로 정렬

각 어셈블리 유닛에서 정확한 게놈 위치를 확인하기 위해서, 다음의 파리미터를 가진 LASTZ를 사용하여 각 어셈블리 유닛을 인간 레퍼런스 게놈에서 각각의 염색체 상에 정렬하였다: -gapped-gap=600,150, -hspthresh4500, -seed=12 of 19 -notransition -ydrop=1500-chain). 체이닝 공정 (chaining procedure) 이후에 인접하는 로컬 배열을 연결하여 하나의 일관적인 배열을 생성하였다. 각 어셈블리 유닛의 체인된 배열 (chained alignments)을 프로세스하여 최적인 배열 스코어를 가진 단일 배열을 얻었다. 선택된 배열이 어셈블리 유닛을 충분히 대표하지 못할 경우, 어셈블리 유닛을 보다 잘 대표할 수 있는 한 세트의 배열을 선택하였다. 선택된 체인된 배열 이후 넷팅 공정 (netting procedure)을 수행하였다. UCSC Kent 툴을 사용하여 체이닝 및 넷팅 공정을 수행하고, 컴퓨터 수행 속도를 증가시키는 것이 필요할 경우 병행 공정을 수행하였다.

GRCh38 갭 클로징

게놈 레퍼런스 컨소시움 (GRC) 및 UCSC 게놈 브라우저에서 제공되는 age 파일과 사이토밴드 (cytoband) 정보에 따라 갭은 텔로머 (telomeric), 센트로머 (centromeric), 헤테로크로마틴 (heterochromatic), 아크로센틱 (acrocentric) 및 유크로마틴 (euchromatic) 영역 등으로 분류되었다. 총 190개의 유크로마틴 갭들이 AK1 어셈블리를 사용한 갭 클로징의 타겟이 되었다. AK1 어셈블리를 사용하여 클로징할 수 없거나 연장할 수 없는 갭들은 Canu를 사용한 로컬 어셈블리 또는 연속적인 서브리드들을 사용하여 클로징하였다. 서브리드들을 레퍼런스에 맵핑한 다음 갭 주변에 맵핑되는 것들을 확인하는 과정으로, 맵 상에서 갭으로부터 10kb 업스트림 또는 다운스트림의 서브리드들을 선택하여 로컬 어셈블리 하였다. 정렬은 BLASR-bestn 3을 사용하여 수행하였고, 매핑 품질 (mapping quality) 254의 일차 정렬된 리드들을 사용하였다. 이후, 어셈블리된 컨티그들은 각각의 갭 위치에 정렬되어 추가된 서열들을 정확하게 확인하는데 사용되었다.

갭 클로징을 위한 서브리드들의 선택

갭 클로징을 위해서 190개의 유크로마틴 갭이 최초에 타겟팅되었다. AK1 어셈블리 정렬을 이용하여 갭 영역을 스패닝하며, 오버랩 하지 않는 최적의 정렬을 갖는 체인을 갭 클로징 또는 갭 연장을 위한 후보로 선택하였다. “갭이 스패닝” 한다는 것의 정의는 다음과 같다:

상염색체의 경우: 0.8 x S ≤ L ≤ 1.2 x S

성염색체의 경우: 0.5 x S ≤ L ≤ 1.5 x S

S는 GRCh38에서 끝나는 점의 좌표에서 시작점의 좌표를 빼서 얻은 매핑된 길이의 크기이다. L은 대응되는 스캐폴드의 길이이다.

갭 주위의 반복된 영역으로 인한 잘못된 정렬을 피하기 위해 서브리드들은 매핑 퀄리티로 일차적으로 필터링 되었으며, 갭 주위의 염기와 최상의 동일성 (identity)을 가진 서브리드들을 선택하여 갭을 클로징하거나 연장하였다. 동일성은 다음과 같이 계산하였다.

동일성 = 미스매칭이 없는 염기의 개수 / 정렬된 염기의 개수

새로운 갭 부분을 찾아 갭부위를 연장하기 위한 염기서열들은 다음의 식을 기준으로 높은 동일성으로 검증되었을 때만 인정하였다.

데이터로 출력가능한 염기들 (soft-clipped bases) / 갭 측면 영역을 둘러싼 매치된 서열 < 1

AK1 어셈블리 자가점도표와 레퍼런스 게놈 자가점도표의 작성

실시예 1의 방법을 통하여 디노보 어셈블리된 AK1 어셈블리의 서열 정보를 이용하여 게놈의 자가점도표를 다음과 같이 작성하였다.

점도표 (dot plot)의 한 축 (x-축)에 선택한 염색체 위치 (1-23번의 염색체 중 일부분)의 AK1의 서열 정보를 위치 (bp 단위) 정보를 반영하여 배치하고 다른 축 (y-축)에도 같은 서열 정보를 배치한다. 두 정보를 좌표로 비교하여 갭이 존재하는 부분 (서열정보가 없어 N으로 표시된 서열일 경우 점을 찍지 않음)과 채워진 부분 (서열정보가 존재하여 A, G, C, T로 표시된 서열일 경우 점을 찍음)을 표시하여 나타냈다. 같은 방식으로 AK1의 서열정보를 작성한 염색체 위치와 같은 염색체 위치의 레퍼런스 게놈 (GRCh38) 정보를 2개의 좌표축에 위치정보와 함께 배치하고 갭이 존재하는 부분과 서열이 채워진 부분을 표시하여 배치하였다 (도 3).

AK1 어셈블리 자가점도표와 레퍼런스 게놈 자가점도표를 한 화면에 배치하여 갭 클로징 (gap closing) 또는 갭 연장

도 2는 레퍼런스 게놈의 기존 갭 정보를 수정할 때 AK1의 스캐폴드와의 비교를 통하여 비교 분석한 결과가 BAC 정보에 의해 뒷받침됨을 보여준다. 기존 레퍼런스 상에 존재하는 갭 Gap_367과 Gap_368의 서열 정보를 AK1의 동일한 컨티그 어셈블리 정보를 통하여 수정하였다. Gap_367은 기존의 레퍼런스 게놈 상에서는 50kb의 크기로 알려져 있었으나 AK1 어셈블리와 비교한 결과 0kb로 축소되었다. Gap_368은 50kb로 알려졌으나, AK1 어셈블리와 비교한 결과 실제로는 144kb의 길이였던 것으로 수정되었다. 갭의 위치 정보는 BAC_154-H07과 BAC_168-G09의 BAC 클론에서 얻은 리드들이 포함된 AK1의 스캐폴드를 참조하여 확인하였다.

도 3은 다중점도표를 이용하여 레퍼런스 게놈과 디노보 어셈블리된 AK1 어셈블리를 대조하여 갭 정보를 수정하는 방법의 한 예시이다. 자가 점도표를 이용하여 레퍼런스 게놈 (GRCh38)의 기존 갭 Gap_367과 Gap_368을 커버하는 서열 영역을 좌측 상단의 점도표상에 시각화하고 (Reference-Reference), AK1 어셈블리의 동일한 위치에 대응하는 서열의 자가점도표를 우측 하단에 배치한다 (AK1-AK1). AK1과 레퍼런스 게놈을 각각의 축으로 두고 그린 점도표를 하나 추가하면 (Reference-AK1) 각각의 자가점도표에서 갭이 생기는 위치가 시각적으로 다르게 표시되는 부위가 나타나는데 레퍼런스 게놈의 Gap_367의 시작 지점인 A와 종료 지점인 B를 AK1의 점도표 축에 해당하는 좌표로 표시하면 같은 위치에 표기되며 레퍼런스 게놈 Gap_367에서 50kb로 나타나는 갭이 0bp로 나타나며 갭이 클로징된다. 같은 방법으로 레퍼런스 게놈 Gap_368의 정보를 수정하면 오히려 레퍼런스 게놈의 간격 차이보다 더 큰 차이를 보이는 좌표값을 얻게 되는데 이를 통하여 갭이 50kb 크기가 아니라, 143,926bp의 크기를 가짐을 확인하여, 갭을 연장하게 된다. 이들 갭들의 위치는 이전에 보고된 바와 같이 연속적인 반복서열들을 가지고 있어서, 종전의 쇼트리드만을 이용하는 방법으로는 확인이 불가능한 영역이었다.

도 13 내지 16은 동일한 방식으로 다중점도표를 이용하여 레퍼런스 게놈과 디노보 어셈블리된 AK1 어셈블리를 대조하여 레퍼런스 서열에 존재하는 갭 정보를 수정하는 결과를 보여준다.

레퍼런스 게놈 구조의 갭 클로징 결과

상기의 방법에 따라 수행된 다중점도표를 이용하여 기존의 레퍼런스 게놈 어셈블리와 디노보 게놈 어셈블리를 정렬한 뒤 기존의 레퍼런스 게놈 구조의 갭 클로징 할 수 있었다 (도 4). 본 발명의 발명자들은 GRCh38 레퍼런스의 190개의 유크로마틱 (euchromatic) 갭 중에서 65개를 클로징 하였다 (도 5). 추가로 로컬 재정렬 (local realignment) 또는 재어셈블리 (reassembly), 또는 스패닝 (spanning) 롱리드를 사용하여 40개의 갭을 클로징할 수 있었다.

도 4는 GRCh38와 비교하여 AK1 어셈블리의 각 염색체의 스캐폴드 커버리지를 나타낸다. 폴리싱 (polishing) 이후 최종 어셈블리는 종전의 인간 이배체 게놈의 레퍼런스 게놈이 아닌 어셈블리 (non-reference assemblies)에서는 달성되지 않았던 연속성 (continuity)을 나타낸다. 예를 들어, 가장 큰 91개의 스캐폴드는 게놈의 90%를 커버하고, 8개의 염색체 암은 단일 스캐폴드로 스패닝된다. 각 염색체에서 클로징된 유크로마틴 갭은 레드로 표시되었고, 총 갭의 수는 그레이로 표시되었다.

도 5는 본 발명에서 AK1 어셈블리로 클로징된 갭의 수 (블루), 롱리드의 로컬 어셈블리로 클로징된 갭의 수 (라이트 블루), 롱리드만으로 클로징된 갭의 수 (레드)를 나타낸다. 또한, AK1 어셈블리로 연장된 갭의 수 (옐로우), 롱리드로 연장된 갭의 수 (그린), 오픈 갭 (그레이)를 나타낸다.

하기 표 1은 인간 레퍼런스 게놈 GRCh38과 본 발명에서 디노보 어셈블리된 AK1 어셈블리의 차이를 보여준다.

	AK1	GRCh38
어셈블리 방법	WGS 및 BAC	BAC 및 포스미드
시퀀싱 및 물리적 맵핑	PacBio 및 BioNano	Sanger, FISH, OM 및 핑거프린트 컨티그
디노보 어셈블리 알고리즘	FALCON	다수의 방법
페이징 방법	De novo	NA
스캐폴드/컨티그 N50 (Mb)	44.85/17.92	67.69/56.41
스캐폴드/컨티그 L50	21/50	16/19
총 갭의 길이 (Mb)	2,832/4,206	735/1,385
갭의 수	264*	999**
어셈블리 중 총 염기수/non-N 염기 (bp)	2,904,207,288/2,866,687,809	159.97
페이징된 블록 N50 (Mb)	11.55	3,209,286,105/3,049,316,098
하플로티그 수	18,964	NA
하플로티그 N50 (kb)	875	NA
총 하플로티그 (bp)	4,804,460,182	NA

* 스팬된 갭의 수

** 스팬된 갭 및 스팬되지 않은 갭의 수

이와 같이 본 발명에 따른 유전 정보 제공 방식을 통하여 기존 레퍼런스 게놈 레퍼런스의 정보를 수정할 수 있는 것을 알 수 있으며, 이를 통하여 인간을 포함한 다양한 레퍼런스 정보의 수정에 활용되어 생물의 정확한 유전 정보를 제공하는 시스템을 개발할 수 있을 것으로 기대된다.

추가적으로 기존의 인간 레퍼런스 게놈은 아시아 인종의 게놈 정보를 담지 못하여 인종 다양성 정보 제공 차원에서 부족한 점이 있는데 본 발명에서 사용된 AK1을 이용하면 아시아인까지 포함한 다양성이 높은 레퍼런스 게놈 또한 제공 가능하여 아시아 인을 대상으로 하는 유전 관련 질환 또는 유전적 특성 연구에 이용할 수 있을 것으로 기대된다.

SV의 분석

어셈블리 기반 SV 검출

어셈블리를 레퍼런스 게놈에 정렬하여 SNP들, 삽입결실 (indel)들, 및 SV들을 분석하였다. 삽입, 결실, 전도 및 복합 변이체들은 사이즈 50bp 이상의 게놈 서열의 구조 변화 사건으로 정의하였다. GRCh38 대신에 GRCh37을 사용하여 주요 분석을 수행하고, 종전에 알려진 구조적 변이와 비교 분석을 수행하였다.

도 6은 AK1 어셈블리와 GRCh37 레퍼런스 게놈의 직접 비교를 통해서 SV의 전체적인 분포를 분석한 파이 차트이다. 결실 (레드), 삽입 (블루), 전좌 (그린) 및 복합 (그레이) 변이체를 확인하였다. 바깥쪽 파이 차트는 각 SV 유형의 신규 변이체를 나타낸다. 전체 18,210개의 구조 변이 (SV)를 확인하였는데, 그 중 결실이 7,358개, 삽입이 10,077개, 전좌가 71개, 복합 변이체가 704개였다. 종전의 연구와 비교하여, 총 11,927개의 변이체가 종전에는 보고되지 않았던 신규한 변이체이였다. 신규한 변이체의 많은 수 (86%)가 모바일 및 연속 반복체 (tandem repeats)의 클러스트에 집중해 있었다 (도 7).

삽입 변이체의 분석 결과는 AK1 서열이 반복 (repeats) 및 중복 (duplications) 뿐만 아니라, 레퍼런스 게놈에는 존재하지 않는 유니크한 서열로 이루어져 있음을 나타냈다. 유니크한 서열들이 유니버셜한 것인지 인종 특이적인 것인지 조사하기 위해서 하이 커버리지 1000 Genome Project 샘플에서 로우 (raw) 리드, 추가적인 하이 커버리지 아시안 샘플을 AK1 어셈블리와 대비해서 정렬하고, 네 종의 인종 그룹에서 정규화된 리드 뎁스 (read depths)를 비교하였다.

인종 그룹 내의 SV 대립유전자 빈도는 다섯 종의 다른 인종적 배경 유래 (아프리카인, 아메리카인, 유럽인, 동아시아인 및 남아시아인) 38개의 하이-커버리지 (high-coverage) 샘플에서 얻은 리드들을 AK1 어셈블리와 정렬하여 얻었다. 1000 Genome Project로부터 선정된 23명 개인의 전장-게놈 시퀀싱 데이터를 얻었고, 추가적으로 15명의 동아시안 개인 (일본인 5명, 중국인 5명 및 한국인 5명)을 시퀀싱하였다. 분석 후보들은 반복체가 70% 이하로 삽입된 것으로 선택하였다. BLAST (-evalue 1e-10 -perc_ identity 90 -qcov_hsp_perc 90)를 이용하여 GRCh37에 맵핑되는 삽입체들 중에서 중복체 (duplication)는 모두 제외하였다. RepeatMasker 및 TRF 소프트웨어로 이동 요소 또는 반복 서열로 인식되었던 부위는 분석을 위하여 마스킹 처리하였다. 유니크 서열 내의 정규화된 리드 뎁스는 리드 뎁스를 나누어 얻어 졌으며, 이는 samtools bedcov를 사용하여 게놈 커버리지 중앙값으로 계산되었다. 삽입체들은 만약 다른 인종과의 변이체 빈도 차이가 0.3 이상일 경우 고도로 폴리몰픽한 (polymorphic) 것으로 결정하였다. 아시아인 특이적 삽입체들은 비아시아 집단과 아시아인 사이의 대립유전 빈도 차이가 0.3 이상일 경우 및 비-아시아인 대립 유전 빈도가 0.5 이하인 경우를 선별하는 것으로 골랐다. 1000 Genome Project 3상에서 S-MIG+ + algorithm (-maf 0.05 -ci AV -probability 0.95)를 사용하여 동아시아인 샘플들에서 아시아 링크 불평형 블록을 얻었다. 0.8 미만의 하플로타입 다양성 색인 (index)을 가지는 링크 불평형 블록들은 제외되었다.

이들 1.7Mb를 커버하는 853개의 삽입은 이들 네 종의 인종 그룹에서 모두 발견되는데, 이들 중 800개의 삽입은 GRCh38 관련한 분석에서도 콜링된 것이다. 아울러, 400개의 삽입은 인종 그룹 간에 높은 다형성 빈도의 변이성을 나타냈으며, 이들 중 76개 (45개의 유전체 삽입 포함)는 아시안 인종 특이적인 것이었다 (도 8). 유전체 삽입 중에서, 본 발명자들은 POU2F3 내에 592-bp 삽입을 확인하였다. POU2F3는 인종 간에 특이적인 다양한 하플로타입 빈도를 나타내는 것으로 알려져 있다. 본 발명에서 확인된 POU2F3는 두개의 140-bp 중복 사이에 유니크한 452bp의 서열을 포함하고 있었다. 또한, 아시안 인종 그룹에서 높은 빈도로 크기가 큰 삽입, 예를 들어 HRASLS2에서 4,539-bp 삽입을 확인하였다 (도 8).

추가적으로, 1000 Genomes Project 아시안 샘플에서 링크 불평형 (linkage disequilibrium) 블록을 이용하여 아시안 특이적인 변이체와 연관된 하플로타입 구조를 연구하였다. 이들 변이체들 중에서, 39개의 삽입이 블록 중에 존재하였고, 이들 중 82%는 동형 접합 AK1 SNP로 동일한 블록 상에 위치하였다. 이들 삽입체 중 하나로 ANO2는 동일한 링크 불평형 블록 내에서 인접한 동형 접합 AK1 SNP들과 비슷한 대립유전자 빈도를 가진다 (도 9). 이는 아시안 인종 그룹에서 다른 인종과 게놈 상의 차이가 존재하며, 유러피안 인종과 별개의 개별 인종적 변이에 대한 심도 있는 게놈 연구가 필요함을 제시한다.

SV 주석처리 (annotation)

반복 요소들은 RepeatMasker (-species human -no_is) 및 반복서열 파인더 (tandem repeat finder TRF라 함) (2 7 7 80 10 50 2000 -f -m -h -d) 를 이용하여 주석을 달았다. SV들은 그에 따라 분류되었는데, 최소 70% 마스킹이 되는 경우 싱글 타입으로 분류하였다. 콤플렉스는 여러 주석처리된 반복 요소들을 가지거나, 또는 최소 30% 남은 서열이 반복체로 주석처리 되지 않는 것으로 정의된다. 50% 상호 오버랩 기준으로 브레이크포인트를 비교하여 신규성을 확인하였다. 기능 측면의 주석처리는 GENCODE 배포 버전 v19 (GRCh37) 및 v21 (GRCh38)를 사용하고, Ensemble Regulatory Build를 사용하여 수행되었다. 유전자 조절 도메인 내에서 일어나는 SV들의 경우, 가장 근접한 유전자 이름으로 주석 처리하였다. 말단중심립 (pericentromeric) 부위 (5Mb 인접하는 주석처리된 중십립들) 내에 위치한 SV 및 서브텔로머릭 부위 (주석처리된 텔로머릭 서열로부터 150kb) 내에 위치한 SV는 헤테로크로마틴으로 주석처리 하였다. 파일롯 및 게놈 마스크 영역의 엄격한 접근성 버전 20141020은 다음의 사이트에서 다운로드하였다: ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/supporting/accessible_genome_masks/.

세그먼트 중복 사이트들은 UCSC 테이블 브라우저에서 다운로드 하였다. 다양한 기능 부위에 놓여있는 SV들의 카테고리화를 단순화하기 위하여, 다음과 같은 순서에 따라 분류하였다: 코딩 서열, 번역되지 않은 영역 (untranslated region), 인트론, 전사-요소-바인딩 사이트, 프로모터, 인핸서, CTCF (전사 억제제), 및 유전자들 사이에 존재함 (intergenic)으로 분류 하였다. GRCh37로부터 콜링된 SV들이 또한 GRCh38 SV 세트들과 공통되고 있는지를 주석처리 하기 위하여, 각 AK1 브레이크포인트들을 50% 상호간 오버랩되고 있는지 기준으로 비교하였다. 추가로 브레이크포인트로부터 50bp 이내의 SV 영역들에 대해서 일치하는지 여부를 측정하여 GRCh38로부터 콜링된 SV들이 대체 컨티그 내에 나타나고 있는지를 평가하였다.

디노보 페이징 마커들

본 발명자들은 디노보 어셈블리에 대하여 페이징 (phasing, 서열의 유래-모계 혹은 부계-를 밝히는 작업)을 수행하였다. 페이징은 PacBio 롱리드, Illumina 쇼트리드, 10X Genomics 링크드 리드 (30X) 및 단일 하플로타입을 나타내는 BACs 유래 리드 (47X)을 사용하여 수행하였다. 이들 방법으로부터 콜링된 이형접합 SNVs는 두개의 페이지로 배정되었고, N50 길이가 11.6Mb인 페이징된 블록을 생성하였다 (표 1). 이는 기존에 보고된 것보다 상당히 긴 것이다.

SNP들 및 짧은 삽입결실 (indel)들은 쇼트리드들의 전체-게놈 시퀀싱 (72x) 에서 불러온 것으로 링크드 리드들로 페이징 하였다. PacBio 서브 리드들의 비-중복 (non-redundant) 세트를 어셈블리에 정렬하였고, 리드 뎁스 (read depth)에 근거하여 페이징된 변이체들에 대해서 가능한 최대의 변이체 대립유전자들을 계산하여 정정하였다. 페이징된 블록은 페이징에 대한 정보를 제공하는 서브 리드 또는 링크드 리드 정보를 갖는 두 마커들을 스패닝하는 영역으로 정의하였다. 링크드 리드들과 유사하게, Illumina 시퀀싱된 BAC 페이즈 (phase) 정보는 페이징 마커를 정정하고 페이징된 블록들을 연장하는데 사용되었다.

페이징 마커들의 스위치 에러

페이징된 블록의 정확도를 BAC들의 말단 시퀀스에 대비하여 평가하였고, 롱 레인지 (long-range) 스위치 에러율이 0.3% 이하인 것을 확인하였다.

말단 서열들은 bwa mem를 사용하여 AK1 어셈블리에 정렬되었으며, 페이징 마커 사이트의 기본 대립유전자를 대응하는 BAC 정보와 함께 불러왔다. 페이징 블록에서 스위칭이 2개 이상의 마커 사이트에서 발생되면, 그것은 긴 범위 스위치로 정의하였다. 롱 레인지 스위치 에러율은 다음식으로 계산하였다: 롱 레인지 스위치의 개수/ 페이징 마커들의 개수

하플로티그 (haplotig) 어셈블리

이후 SMRT 리드를 충분한 수의 마커 SNVs가 존재하는 두개의 페이지로 분배하였다. 두개의 분배된 리드 세트를 디노보로 어셈블리하여 하플로티그를 생성하였다. 페이징 마커들의 최종 세트를 사용하여, 서브리드에서 >85%의 페이징 마커들이 일치하면 하플로타입 A 또는 B의 세트로 분류하였다. 서브리드들이 마커를 포함하지 않는 경우, 동형 접합체 (homozygous)로 분류하였다. 리드 뎁스를 통하여 전단계에서 놓친 페이징 마커들은 추가로 페이징된 블록에 인접한 동형 접합체 부위로 불러와졌다. 하플로타입 A 또는 동형 접합체 부위에 속하는 서브리드들은 하플로틱 A로 어셈블리 되었고, 하플로타입 B는 하플로틱 B로 Canu를 이용하여 어셈블리 되었다. 이 경우, 동형 접합체로 페이징된 (반수체에서 유래한 것으로 판별된) 서브리드들은 하플로타입 A및 B의 서브리드들과 함께 사용하였다. 동형 접합체로 페이징된 서브리드들은 하플로타입 A 및 B에 속한 시퀀싱 갭의 각각의 위치 옆에 위치되었으며, 어셈블리 동안 재-분류 되었다.

BAC 클론들의 디노보 어셈블리와 SV 유효성 판단

하플로티그를 인간 레퍼런스 게놈에 비교하여 하플로타입 특이적 대립유전자로 SNP들, 쇼트 삽입결실 (indel), SV들을 포함하는 대립유전자를 확인하였다 (표 2).

상염색체 상 페이징된 변이체 수

	SNPs		INDELs		SVs
	Het	Hom	He	Hom	Het	Hom
chr1	153,853	124,818	7,358	6,514	1,863	323
chr2	159,672	133,893	7,721	6,941	1,880	323
chr3	128,221	114,943	5,972	5,728	1,495	265
chr4	138,860	120,254	6,695	5,856	1,658	234
chr5	120,983	91,714	5,303	4,712	1,301	216
chr6	129,980	101,781	6,106	5,162	1,470	295
chr7	114,395	87,045	5,255	4,610	1,782	294
chr8	111,101	77,958	4,555	3,586	1,209	224
chr9	89,046	64,945	3,842	3,009	1,088	200
chr10	94,171	75,201	4,370	3,806	1,252	209
chr11	92,486	78,056	4,191	4,007	1,167	202
chr12	94,828	75,902	4,689	4,139	1,225	232
chr13	70,731	64,056	3,272	3,342	989	173
chr14	68,444	47,451	3,147	2,471	671	102
chr15	54,878	46,343	2,550	2,531	664	122
chr16	62,360	44,862	2,714	2,088	844	115
chr17	49,833	39,326	2,573	2,330	933	172
chr18	54,672	46,805	2,604	2,413	756	133
chr19	49,278	29,131	2,596	1,759	923	137
chr20	42,647	31,038	1,981	1,633	651	121
chr21	28,924	20,578	1,361	1,448	482	81
chr22	28,340	18,773	1,268	1,106	593	65
Total	1,937,703	1,534,873	90,123	79,191	24,896	4,238

어셈블리에서 콜링된 SV들에 추가적으로 13,436개의 이형접합 하플로타입 특이적 SV들을 하플로티그로부터 확인하였다. 동일한 페이즈 상의 BAC 컨티그에 대해서 이들 SV의 정확성을 시험하였고, 평가될 수 있는 69개의 SV 중 67개가 완벽하게 매칭되는 것을 확인하였다 (표 3).

BAC으로 확인된 페이즈 특이적 SV들

Chr	Start	End	Type	Phase	SV_ID (Haplotig position)	Identity	BAC Consensus
chr1	113,958,943	113,958,943	INS	A	A_01550005_005:96570-96835	Perfect match	tig00002142
chr1	246,989,196	246,989,257	DEL	A	A_00850001_001:536877-536877	Perfect match	tig00000198
chr2	98,582,146	98,582,146	INS	A	A_00730005_006:525155-525459	Perfect match	tig00000392
chr2	119,652,804	119,652,804	INS	B	B_01630002_002:76084-76195	Perfect match	tig00000221
chr4	1,357,963	1,358,091	DEL	A	A_00790001_001:2199723-2199723	Perfect match	tig00000581
chr4	1,391,891	1,392,161	DEL	A	A_00790001_001:2164750-2164750	Perfect match	tig00000581
chr4	1,421,173	1,421,173	INS	A	A_00790001_001:2134820-2135686	Perfect match	tig00000581
chr5	180,473,219	180,473,219	INS	A	A_00870001_013:252762-253831	Reasonable match	tig00000671
chr6	31,274,795	31,274,929	DEL	B	B_00400065_003:8064-8064	Perfect match	tig00000117
chr6	31,288,028	31,288,262	DEL	B	B_00400066_001:19587-19587	Perfect match	tig00000559
chr6	31,296,782	31,296,782	INS	A	A_00400001_001:1222942-1223286	Perfect match	tig00000559
chr6	31,297,394	31,297,394	INS	A	A_00400001_001:1221538-1222326	Perfect match	tig00000559
chr7	91,214,216	91,220,724	DEL	A	A_00370008_002:1198113-1198113	Perfect match	tig00000431
chr7	142,098,198	142,276,193	COMPLEX	A	A_01470003_003:516785-707087	Perfect match (Half covered)	tig00000418
chr8	40,748,795	40,748,795	INS	A	A_01790003_041:80596-80651	Perfect match	tig00000737
chr8	58,127,808	58,127,808	INS	B	B_01790055_010:23705-29088	Perfect match	tig00000614
chr8	58,129,671	58,129,671	INS	B	B_01790055_010:30927-36248	Perfect match	tig00000614
chr8	58,132,170	58,132,170	INS	B	B_01790055_010:38759-41799	Perfect match	tig00000614, tig00000617
chr8	58,133,432	58,133,447	COMPLEX	B	B_01790055_010:43074-44511	Perfect match	tig00000614
chr8	58,134,140	58,134,162	COMPLEX	B	B_01790055_010:45224-49532	Perfect match	tig00000614
chr8	144,744,161	144,744,161	INS	B	B_00010011_001:63909-64545	Perfect match	tig00000658
chr8	144,744,161	144,744,161	INS	B	B_00010011_001:63909-64545	Perfect match	tig00000658
chr8	144,744,421	144,744,421	INS	B	B_00010011_001:63071-63649	Perfect match	tig00000658
chr8	144,749,197	144,749,247	DEL	B	B_00010011_001:58316-58316	Perfect match	tig00000658
chr9	72,092,330	72,121,287	DEL	B	B_01450125_001:229057-229057	Perfect match	tig00002138, tig00002139, tig00002141
chr9	73,322,438	73,340,431	DEL	A	A_01450002_003:886988-886988	Perfect match	tig00000079
chr10	124,440,913	124,440,913	INS	A	A_01800001_005:119801-119978	Perfect match	tig00000028
chr11	980,298	980,298	INS	A	A_00970002_002:587698-588127	Perfect match	tig00000703
chr11	1,017,240	1,017,240	INS	B	B_00970005_001:6289-7965	Perfect match	tig00000550
chr11	93,154,136	93,160,197	DEL	B	B_01000047_001:358749-358749	Perfect match	tig00000407
chr17	225,442	225,496	DEL	B	B_00490012_006:37798-37798	Perfect match	tig00000486
chr19	2,131,645	2,131,645	INS	B	B_00670013_001:27868-27922	Perfect match	tig00000482
chr19	2,200,975	2,201,029	DEL	A	A_00670001_003:176148-176148	Perfect match	tig00000482
chr19	8,349,945	8,364,794	DEL	A	A_00670001_002:1228743-1228743	Perfect match	tig00000303
chr19	9,322,407	9,322,407	INS	A	A_00080001_001:459699-459768	Perfect match	tig00000355
chr19	40,373,874	40,389,581	DEL	B	B_01720013_001:112919-112919	Perfect match	tig00000650, tig00000668
chr20	1,592,433	1,592,433	INS	A	A_01370001_002:1107999-1108163	Perfect match	tig00000000
chr20	1,778,684	1,778,684	INS	B	B_01370008_001:49495-49609	Perfect match	tig00000532
chr20	1,857,765	1,857,765	INS	B	B_01370008_001:128670-137880	Perfect match (Half covered)	tig00000611
chr20	4,399,805	4,399,860	DEL	A	A_01370001_002:3918691-3918691	Perfect match	tig00000499
chr20	7,458,207	7,458,445	DEL	A	A_01370001_001:804521-804521	Perfect match	tig00000430
chr20	8,586,996	8,587,157	DEL	A	A_01370001_001:1933527-1933527	Perfect match	tig00000391
chr20	16,133,474	16,133,474	INS	A	A_01370002_001:267072-267124	Reasonable match	tig00000146
chr20	16,169,497	16,169,497	INS	A	A_01370002_001:303056-303200	Perfect match	tig00000146
chr20	18,794,815	18,795,135	DEL	B	B_01370014_001:474483-474483	Perfect match	tig00000133
chr20	23,526,216	23,526,353	DEL	A	A_01370003_001:340134-340134	Perfect match	tig00000010
chr20	23,527,766	23,527,766	INS	A	A_01370003_001:341528-341696	Perfect match	tig00000010
chr20	25,540,289	25,540,472	COMPLEX	A	A_01370003_001:2357667-2357775	Perfect match	tig00000398
chr20	33,219,540	33,219,594	DEL	A	A_01640001_001:6178696-6178696	Perfect match	tig00000656
chr20	35,188,116	35,188,116	INS	A	A_01640001_001:4244038-4244229	Perfect match	tig00000232
chr20	35,190,278	35,190,443	DEL	A	A_01640001_001:4241881-4241881	Perfect match	tig00000232
chr20	51,845,284	51,845,341	DEL	B	B_01640034_001:51135-51135	Perfect match	tig00000332
chr20	54,202,888	54,202,888	INS	B	B_01640046_001:984223-984298	Perfect match	tig00000087
chr20	54,203,188	54,203,188	INS	B	B_01640046_001:983800-983922	Perfect match	tig00000087
chr20	54,406,672	54,406,672	INS	A	A_01640002_001:4128535-4128676	Perfect match	tig00000668
chr20	55,992,472	55,992,472	INS	A	A_01640002_003:671879-671945	Perfect match	tig00000337
chr20	58,874,630	58,874,630	INS	A	A_01640002_004:339618-339674	Perfect match	tig00000312
chr20	59,367,195	59,367,195	INS	A	A_01640002_004:833088-833159	Perfect match	tig00000290
chr20	59,478,144	59,478,144	INS	A	A_01640002_004:944093-944180	Perfect match	tig00000290
chr20	59,556,318	59,556,318	INS	B	B_01640053_001:153874-153958	Perfect match	tig00000003
chr20	59,604,103	59,604,103	INS	B	B_01640053_001:106124-106174	Perfect match	tig00000003
chr20	59,621,200	59,621,275	DEL	B	B_01640053_001:89008-89008	Perfect match	tig00000003
chr20	59,865,494	59,865,494	INS	A	A_01640002_004:1331313-1331530	Perfect match	tig00000606
chr20	59,974,166	59,974,487	DEL	A	A_01640002_004:1444321-1444321	Perfect match	tig00000895
chr20	60,948,560	60,948,700	DEL	A	A_01640002_004:2427006-2427006	Perfect match	tig00000390
chr20	60,992,933	60,992,933	INS	A	A_01640002_004:2472158-2472210	Perfect match	tig00000390
chr20	62,807,430	62,807,430	INS	B	B_01640059_001:34217-34366	Perfect match	tig00000145
chr20	62,902,209	62,902,425	DEL	A	A_01640003_001:5674-5674	Perfect match	tig00000145
chr22	24,195,933	24,198,505	DEL	B	B_01040007_001:81879-81879	Perfect match	tig00000305

두 하플로티그에서 이형접합으로 나타나는 SNV들, 삽입결실 (indel)들 및 SV를 합한 길이는 69.8Mb이었다. 아울러 각 하플로타입 게놈에서 발현 수준을 측정할 수 있었다 (도 10).

크기 면에서 (>1kb) 불일치하는 것으로 밝혀진 BAC들의 풀을 형성하고 SMRT 플랫폼으로 시퀀싱하였다. 스크리닝하고 CrossMatch를 사용하여 E. Coli 또는 벡터 서열들을 제거한 뒤 Canu를 사용하여 서브리드들을 어셈블리 하였다. 어셈블리된 BAC 컨티그들은 Quiver로 폴리싱하였다. BAC 컨티그들은 이후 AK1 어셈블리-기반 또는 페이징-특이적 SV들의 유효성 판단에 사용되었으며, 어셈블리와 BAC 컨티그가 탐지된 SV에서 일치하는지 여부를 평가하는 방식으로 유효성을 판단하였다.

이형 접합체성 및 대립유전자-특이적 발현

하플로티그를 GRCh37에 정렬한 것에 기초하여 하플로티그 A 및 B를 파트너 서열과 비교하기 위해 로컬 배치하였다. 상이한 염기의 개수는 매 5Mb 거리마다 합산하였고, 퍼센트를 정량하였다. RNA-seq 리드들은 트림되고 STAR 정렬기를 사용하여 GRCh37에 정렬되었다. 중복된 것들은 Picard 툴들을 사용하여 제거하였고 변이체들은 RNA-seq에 최적화 수행 GATK를 따르는 HaplotypeCaller 및 VariantFiltration을 사용하여 불러왔다.

인간 백혈구 항원 (HLA) 유전자의 하플로타입을 조사하고, 타겟팅된 SMRT 시퀀싱을 사용하여 하플로타입을 확인하였다 (표 4).

HLA-타입핑 결과

HLA Gene	MHC Haplotig A	MHC Haplotig B
HLA-A	A*32:01:01	A*24:02:01:01
HLA-B	B*51:01:01:01	B*58:01:01
HLA-C	C*03:02:02:01	C*14:02:01
HLA-DRB1	DRB1*03:01:01:01	DRB1*15:01:01:01
HLA-DRB3	DRB3:02:02:01:01	DRB3:02:02:01:01
HLA-DQA1	DQA1*05:01:01:01	DQA1*01:02:01:01
HLA-DQB1	DQB1*06:02:01	DQB1*02:01:01
HLA-DPA	DPA1*01:03:01:01	DPA1*02:02:02
HLA-DPB	DPB1*02:01:02	DPB1*05:01:01

대립유전자 변이의 하이퍼폴리모르픽 패턴과 관련된 일반적인 문제를 피하기 위하여, 주요 조직 적합 유전자 복합체 (MHC) 클래스 I 및 II 영역이 독립적으로 어셈블리 되었다. MHC 클래스 II 영역은 많은 개수의 SV들에도 불구하고 성공적으로 페이징 되었다. 도 11에서 MHC 클래스 II 영역 내의 HLA 유전자를 나타낸다. HLA 유전자 영역은 많은 수의 SV를 포함하고 있고, 다양성 및 복잡성이 높은 영역으로 레퍼런스 게놈에 대해 페이징하기 어렵다. 그러나, 디노보 접근방식을 통해 전체 영역을 페이징 할 수 있었다. 이는 디노보 페이징 접근법의 유용성을 보여준다 (도 11).

또한 본 발명의 방법은 임상적으로 중요한 CYP2D6의 중복을 감지하여 하나의 페이징으로 배정하게 해주었다. 도 12는 중복된 CYP2D6 카피가 하플로타입 B 상에서 CYP2D7의 마지막 엑손과 융합되어 있음을 나타낸다. 이는 디노보 어셈블리 기반 페이징으로 변이가 심하게 일어나는 부위를 밝혀내는데 이점을 가지는 것을 개시하며, 나아가 약리유전체학 (pharmacogenomics)에 사용될 수 있음을 알 수 있다 (도 12).

대립유전자의 배치 형태는 열성 유전자의 경우 특히 중요하다. 예를 들어 열성유전자 질병과 관련이 있는 것으로 알려진 두 개 이상의 비유사적 (nonsynonymous), 이형접합 대립유전자를 가지는 두 종의 유전자를 페이징할 수 있었다 (표 5 내지 9). MEFV 및 ADAMTS13에 있는 변이체들은 가족력이 있는 지중해성 열병 (Mediterranean fever)과 업쇼-샬먼 증후군 (Upshaw-Shalman syndrome)을 일으키는 것으로 예측되는 자가 열성 유전 패턴을 가지며, 각각 cis 형태로 발견되며 파트너 하플로타입은 온전한 형태로 존재한다.

cis 구조를 가진 유전자 내의 이형접합체성 변이체의 아미노산 변화 1

*Chr*	*Start*	*End*	*dbSNP144*	*Gene*	*Ref*	*Alt*	*Num. variants* *in this gene*
chr9	136297737	136297737	novel	ADAMTS13	C	G	3
chr9	136301982	136301982	rs2301612	ADAMTS13	C	G	3
chr9	136305530	136305530	novel	ADAMTS13	C	G	3
chr16	3293888	3293888	rs1231122	MEFV	C	T	4
chr16	3299468	3299468	rs11466024	MEFV	C	T	4
chr16	3299586	3299586	rs11466023	MEFV	G	A	4
chr16	3304626	3304626	rs3743930	MEFV	C	G	4

cis 구조를 가진 유전자 내의 이형접합체성 변이체의 아미노산 변화 2

*Chr*	*Function*	*Haplotig:* *Position*	*Clinvar* *(20150629)*	*Polyphen2* *HDIV score*	*Polyphen2* *HDIV pred*	*Polyphen2* *HVAR score*	*Polyphen2* *HVAR pred*
chr9	nonsynonymous SNV	B_00130001_003:132374	NA	0.999	D	0.917	D
chr9	nonsynonymous SNV	B_00130001_003:136616	Pathogenic	0	B	0	B
chr9	nonsynonymous SNV	B_00130001_003:140165	NA	1	D	0.998	D
chr16	nonsynonymous SNV	A_01690003_003:604996	Pathogenic	.	.	.	.
chr16	nonsynonymous SNV	A_01690003_003:610574	NA	0.259	B	0.045	B
chr16	nonsynonymous SNV	A_01690003_003:610448	NA	0.959	D	0.503	P
chr16	nonsynonymous SNV	A_01690003_003:615726	Pathogenic	0.995	D	0.851	P

cis 구조를 가진 유전자 내의 이형접합체성 변이체의 아미노산 변화 3

*Chr*	*SIFT* *score*	*SIFT* *pred*	*Trans* */Cis*	*GWAS* *Catalog*	*Haplotype*	*Expressed RNA-Seq* *Allele Count A*	*Expressed RNA-Seq* *Allele Count B*
chr9	0.21	T	CIS	NA	B	NA	NA
chr9	1	T	CIS	NA	B	2	4
chr9	0.12	T	CIS	NA	B	NA	NA
chr16	0.26	T	CIS	NA	A	NA	NA
chr16	0.23	T	CIS	NA	A	NA	NA
chr16	0.05	D	CIS	NA	A	0	2
chr16	0.01	D	CIS	NA	A	NA	NA

cis 구조를 가진 유전자 내의 이형접합체성 변이체의 아미노산 변화 4

*Chr*	*1000g2015aug* *All*	*1000g2015aug* *EAS*	*1000g2015aug* *SAS*	*1000g2015aug* *EUR*	*1000g2015aug* *AFR*	*1000g2015aug* *AMR*
chr9	0.00439297	0.0188	0.002	0.001	NA	NA
chr9	0.271565	0.1835	0.4325	0.4254	0.0408	0.389
chr9	0.0323482	0.0198	0.0276	0.0825	0.0053	0.036
chr16	0.353634	0.3958	0.2352	0.4423	0.3306	0.3746
chr16	0.0171725	0.0546	0.0204	0.004	0.0015	0.0072
chr16	0.0201677	0.0675	0.0215	0.004	0.0023	0.0072
chr16	0.126398	0.2887	0.3047	0.0089	0.0204	0.0115

cis 구조를 가진 유전자 내의 이형접합체성 변이체의 아미노산 변화 5

*Chr*	*Clinvar (details)*	*AA Change*
chr9	NA	ADAMTS13:ENST00000536611.1:exon3:c.C32G:p.T11R,ADAMTS13:ENST00000371916.1:exon7:c.C715G:p.Q239E,ADAMTS13:ENST00000355699.2:exon9:c.C1016G:p.T339R,ADAMTS13:ENST00000356589.2:exon9:c.C923G:p.T308R,ADAMTS13:ENST00000371929.3:exon9:c.C1016G:p.T339R
chr9	CLINSIG=pathogenic;CLNDBN=Upshaw-Schulman_syndrome;CLNREVSTAT=no_assertion_criteria_provided;CLNACC=RCV000006169.3;CLNDSDB=MedGen:OMIM:Orphanet:SNOMED_CT;CLNDSDBID=C1268935:274150:ORPHA54057:373420004	ADAMTS13:ENST00000536611.1:exon6:c.C358G:p.Q120E,ADAMTS13:ENST00000355699.2:exon12:c.C1342G:p.Q448E,ADAMTS13:ENST00000356589.2:exon12:c.C1249G:p.Q417E,ADAMTS13:ENST00000371929.3:exon12:c.C1342G:p.Q448E
chr9	NA	ADAMTS13:ENST00000536611.1:exon10:c.C868G:p.P290A,ADAMTS13:ENST00000355699.2:exon16:c.C1852G:p.P618A,ADAMTS13:ENST00000356589.2:exon16:c.C1759G:p.P587A,ADAMTS13:ENST00000371929.3:exon16:c.C1852G:p.P618A
chr16	CLINSIG=non-pathogenic,non-pathogenic;CLNDBN=not_provided,Familial_Mediterranean_fever;CLNREVSTAT=criteria_provided\x2c_single_submitter,criteria_provided\x2c_multiple_submitters\x2c_no_conflicts;CLNACC=RCV000126738.1,RCV000030177.2;CLNDSDB=MedGen,GeneReviews:MedGen:OMIM:Orphanet:SNOMED_CT;CLNDSDBID=CN221809,NBK1227:C0031069:249100:ORPHA342:12579009	MEFV:ENST00000541159.1:exon8:c.G1306A:p.G436R
chr16	NA	MEFV:ENST00000536379.1:exon2:c.G590A:p.R197Q,MEFV:ENST00000541159.1:exon2:c.G590A:p.R197Q,MEFV:ENST00000219596.1:exon3:c.G1223A:p.R408Q,MEFV:ENST00000339854.4:exon3:c.G683A:p.R228Q
chr16	NA	MEFV:ENST00000536379.1:exon2:c.C472T:p.P158S,MEFV:ENST00000541159.1:exon2:c.C472T:p.P158S,MEFV:ENST00000219596.1:exon3:c.C1105T:p.P369S,MEFV:ENST00000339854.4:exon3:c.C565T:p.P189S
chr16	CLINSIG=pathogenic;CLNDBN=Familial_mediterranean_fever\x2c_autosomal_dominant;CLNREVSTAT=no_assertion_criteria_provided;CLNACC=RCV000002664.1;CLNDSDB=MedGen:OMIM:Orphanet;CLNDSDBID=C1851347:134610:ORPHA342	MEFV:ENST00000219596.1:exon2:c.G442C:p.E148Q

이와 같이 본 발명에 따른 디노보 어셈블리된 시험 서열과 레퍼런스 게놈 서열의 다중점도표분석 방법을 통해 레퍼런스 게놈의 서열 정보를 교정하여 레퍼런스 게놈의 완벽도를 향상시킴으로써, 게놈 구조 변이에 따른 질병의 예측 또는 진단 방법 개발이 더 효과적으로 가능해 질 것으로 기대된다.

Claims

하기 수단들에 의해 수행되는 단계를 포함하는 컴퓨터를 이용한 게놈 분석 방법으로, 디노보 게놈 어셈블리 (de novo genome assembly)된 시험 서열로 기존에 알려진 대상 게놈에 대한 레퍼런스 어셈블리 서열 정보의 수정을 수행하는 게놈 분석 방법:
(a) 유전체 조립부가 시험 서열을 디노보 어셈블리로 게놈을 어셈블리하여 전체 서열을 재구성하는 단계;
(b) 점도표 생성부가 서열 정보의 수정을 수행하고자 하는 위치의 레퍼런스 서열의 자가-유사 점도표 (self-similarity dot-plot)를 생성하는 단계;
(c) 점도표 분석부가 상기 (b) 단계에서 생성된 레퍼런스 서열의 자가-유사 점도표 상에서 서열 갭을 확인하는 단계;
(d) 서열 선택부가 서열 정보의 수정을 수행하고자 하는 위치의 레퍼런스 서열 영역에 대응하는 위치의 서열로 디노보 게놈 어셈블리된 시험 서열의 전체 서열에서 일부 서열을 선택하는 단계;
(e) 점도표 생성부가 상기 (d) 단계에서 선택된 디노보 게놈 어셈블리된 시험 서열의 자가-유사 점도표를 생성하는 단계;
(f) 다중점도표 분석부가 상기 (b) 단계에서 생성된 레퍼런스 서열의 자가-유사 점도표와 상기 (e) 단계에서 생성된 디노보 게놈 어셈블리된 시험 서열의 자가-유사 점도표의 크기 비율을 맞추어 한 화면에 정렬하여, 디노보 게놈 어셈블리된 시험 서열의 대응하는 위치의 레퍼런스 서열에서 나타나는 서열 갭을 확인하는 단계; 및
(g) 서열 정보 교정부가 상기 (f) 단계에서 확인된 레퍼런스 서열에서 나타나는 서열 갭을 대응하는 위치의 디노보 어셈블리된 시험 서열로 클로징 (closing) 하거나 또는 갭을 연장 (extend) 하는 단계.
제1항에서, 상기 (a) 내지 (g) 단계 중 하나 이상의 단계에서 선택적으로, 추가 서열 정보 수정부가 로컬 재정렬 (local realignment) 또는 재어셈블리 (reassembly), 또는 스패닝 (spanning) 롱 리드를 사용하여 레퍼런스 서열 정보를 수정하는 단계를 포함하는 게놈 분석 방법.
제1항에서, 상기 대상 게놈은 원핵생물, 진핵생물, 박테리아, 바이러스, 동물, 식물, 또는 인간으로부터 유래한 게놈 서열 또는 그 일부인 것인 게놈 분석 방법.
제1항에서, 레퍼런스 서열 정보의 수정은 갭 클로징 (gap closing) 또는 갭을 연장 (extend) 하는 것인 게놈 분석 방법.
제1항에 있어서, 시험 서열의 디노보 어셈블리는 PacBio SMRT 롱리드, BioNano Genomics 차세대 맵핑 (next-generation maps), Illumina HiSeq 쇼트리드, 10X Genomics GemCode 링크드 리드 및 BAC 클론 시퀀싱 방법 중 하나 이상의 방법을 조합하는 것인 게놈 분석 방법.
제1항의 방법에 추가적으로 유전자 변이 확인부가 대상 시험체의 게놈 서열 상의 단일염기다형성 (single nucleotide polymorphism, SNP), 삽입결실 (indel) 또는 구조 변이체 (structural variant, SV)를 포함하는 유전자 변이를 확인하는 단계를 포함하는 방법.
제6항에 있어서, 하플로타입 특이적 유전자 변이 확인부가 디노보 어셈블리된 시험 서열로 염색체 상의 하플로타입을 나타내도록 하플로티그의 디노보 어셈블리를 구성한 서열과 대상 시험체의 게놈 서열 정보와 비교하여 하플로타입 특이적인 단일염기다형성, 삽입결실 또는 구조 변이체를 포함하는 유전자 변이를 확인하는 단계를 포함하는 방법.
(a) 시험 서열을 디노보 게놈 어셈블리로 게놈을 어셈블리하여 전체 서열을 재구성하는 유전체 조립부;
(b) 서열 정보의 수정을 수행하고자 하는 위치의 레퍼런스 서열의 자가-유사 점도표 (self-similarity dot-plot)를 생성하는 점도표 생성부;
(c) 레퍼런스 서열의 자가-유사 점도표 상에서 서열 갭을 확인하는 점도표 분석부;
(d) 서열 정보의 수정을 수행하고자 하는 위치의 레퍼런스 서열 영역에 대응하는 위치의 서열로 디노보 게놈 어셈블리된 시험 서열의 전체 서열에서 일부 서열을 선택하는 서열 선택부;
(e) 디노보 게놈 어셈블리된 시험 서열의 자가-유사 점도표를 생성하는 점도표 생성부;
(f) 레퍼런스 서열의 자가-유사 점도표와 디노보 게놈 어셈블리된 시험 서열의 자가-유사 점도표의 크기 비율을 맞추어 한 화면에 정렬하여, 디노보 게놈 어셈블리된 시험 서열의 대응하는 위치의 레퍼런스 서열에서 나타나는 서열 갭을 확인하는 다중점도표 분석부
; 및
(f) 레퍼런스 서열에서 나타나는 서열 갭을 대응하는 위치의 디노보 어셈블리된 시험 서열로 클로징하거나 또는 갭을 연장하는 서열 정보 교정부
를 포함하는 기존에 알려진 대상 게놈에 대한 레퍼런스 어셈블리를 시험 서열의 디노보 어셈블리로 수정하는 시스템.