WO2020067603A1

WO2020067603A1 - 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법 및 구조변이 검출 장치

Info

Publication number: WO2020067603A1
Application number: PCT/KR2018/014079
Authority: WO
Inventors: 남진우; 최민학; 이도헌; 손장일
Original assignee: 한양대학교 산학협력단
Priority date: 2018-09-28
Filing date: 2018-11-16
Publication date: 2020-04-02

Abstract

다중 참조 유전체에 기반한 유전체 구조변이 검출 방법은 컴퓨터장치가 샘플 서열 데이터를 입력받는 단계, 상기 컴퓨터장치가 다중 참조 유전체 데이터와 상기 샘플 서열 데이터를 비교하여 상기 샘플 서열 데이터의 리드(read) 중 상기 다중 참조 유전체에 존재하지 않는 적어도 하나의 k-mer 리드를 결정하는 단계, 상기 컴퓨터장치가 상기 적어도 하나의 k-mer 리드를 표준 참조 유전체 데이터에 매핑하여 구조변이의 후보 영역 및 브레이크포인트를 결정하는 단계 및 상기 컴퓨터장치가 상기 매핑 결과에 따른 브레이크포인트 및 서열 매핑 패턴을 기준으로 상기 샘플 서열 데이터에 대한 구조변이 유형을 예측하는 단계를 포함한다.

Description

다중 참조 유전체에 기반한 유전체 구조변이 검출 방법 및 구조변이 검출 장치

이하 설명하는 기술은 유전체의 구조변이 검출 기법에 관한 것이다.

유전체의 변이는 크게 따라 서열 변이(sequence variation)와 구조변이(structural variation)로 나눌 수 있다. 구조변이는 1000bp(base pair, 핵산의 길이) 이상의 유전적 변이-증폭(segmental duplication), 복제수변이(copy number variation), 전좌(translocation), 전위(inversion), 삽입(insertion) 내지 결실(deletion)을 의미한다.

최근에 차세대 시퀸싱(Next Generation Sequencing; NGS) 기술이 발전함에 따라서 시퀀싱 장치에서 생성된 서열조각(리드, read)을 이용하여 구조변이를 발굴하는 기법들이 등장하였다. 서열 변이 분석은 대규모 서열 데이터를 기반으로 다양한 효율적인 알고리즘이 등장하였다. 이에 반하여 문제의 복잡도가 훨씬 높은 구조변이 예측은 성능 및 속도면에서 시장 지배적인 알고리즘 내지 프로그램이 없는 상태이다.

암(cancer) 및 주요 질병에 관한 연구에서 구조변이 예측이 임상적으로 시급하다. 특히 국내에서 암유전체 패널(panel) 사용에 의료 보험이 적용되면서, 많은 수의 암환자로부터 차세대 서열데이터를 생산하고 있다. 그러나 암 관련된 구조변이 예측 내지 분류 기술이 뒷받침되지 못하는 실정이다.

종래 상용 유전체 구조변이 분석 프로그램은 다양한 유형의 구조변이를 검출하는데 한계가 있다. 예컨대, BreakDancer는 페어드 엔드의 양쪽이 서로 일정하게 떨어진 리드(discordant paired-end read) 정보만 사용하여 구조변이를 예측하기 때문에 삽입 유형을 검출하는데 제한적이다. 나아가 종래 분석 프로그램은 개인 간의 유전체 서열 차이(SNP)를 고려하지 않아, 인종의 차이에서 나타나는 서열 차이를 구조변이에 연관된 서열로 잘못 해석하는 문제(false positive 또는 False negative)가 있었다.

이하 설명하는 기술은 NGS 기반의 분석으로 모든 유형의 구조변이를 검출하는 기법을 제공하고자 한다. 또한, 이하 설명하는 기술은 인종 등의 차이에 따른 유전체 서열 차이를 고려하는 유전체 구조변이 검출 기법을 제공하고자 한다.

다중 레퍼런스에 기반한 유전체 구조변이 검출 장치는 샘플 서열 데이터를 입력받는 입력장치, 다중 참조 유전체 데이터, 표준 참조 유전체 데이터 및 상기 다중 참조 유전체 데이터와 상기 표준 참조 유전체 데이터를 각각 상기 샘플 서열 데이터와 비교하여 상기 샘플 서열 데이터에 대한 구조변이 유형을 예측하는 프로그램을 저장하는 저장장치 및 상기 다중 참조 유전체 데이터와 상기 샘플 서열 데이터를 비교하여 상기 샘플 서열 데이터의 리드(read) 중 상기 다중 참조 유전체에 존재하지 않는 적어도 하나의 k-mer 리드를 결정하고, 상기 적어도 하나의 k-mer 리드를 표준 참조 유전체 데이터에 매핑하여 결정되는 브레이크포인트 및 서열 매핑 패턴을 기준으로 상기 구조변이 유형을 예측하는 연산장치를 포함한다.

이하 설명하는 기술은 복합적인 매핑기법을 사용하여 효과적으로 다양한 구조변이 검출할 수 있다. 또한, 이하 설명하는 기술은 유전체 구조변이 검출에서 복합적인 참조 유전체를 사용하여 인종 간의 서열 차이에 따른 오검출 문제를 해결한다. 이하 설명하는 기술은 NGS 기반 암 진단 패널, 전장유전체서열 (Whole genome sequencing, WGS), 전장엑솜서열(Whole exomse sequencing, WES), TPS(Targeted panel sequencing)에 모두 사용가능한 유전체 분석 기법이다. 나아가 이하 설명하는 기술은 NGS기반 생식세포 (유전성) 구조변이와 체세포 구조변이 (비유전성)를 모두 검출 할 수 있다.

도 1은 hg19 참조 유전체와 다양한 인종의 참조 유전체들의 31mer를 비교한 결과이다.

도 2는 다중 참조 유전체에 기반한 염색체 구조변이 검출 과정에 대한 순서도의 예이다.

도 3은 1000 게놈 프로젝트 샘플에 대한 k-mer 필터링 결과에 대한 예이다.

도 4는 구조변이가 검증된 유방암 샘플에 대한 k-mer 필터링 결과에 대한 예이다.

도 5는 구조변이 검출의 효과를 검증한 실험 결과의 예이다.

도 6은 서열 깊이에 따른 구조변이 검출의 효과를 검증한 실험 결과의 예이다.

도 7은 암 조직 순도에 따른 구조변이 검출의 효과를 검증한 실험 결과의 예이다.

도 8은 구조변이 검출 장치의 구조에 대한 예이다.

도 9는 구조변이 검출 시스템에 대한 예이다.

이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

이하 설명에서 전제하는 분석 기법 내지 용어에 대하여 설명한다.

NGS 기반 분석은 싱글-엔드 라이브러리(sigle-end library)와 페어드-엔드 라이브러리(paired-end library) 방법이 있다. 일반적으로 페어드-엔드 기법이 참조 유전체 시료에 샘플 유전체(sample genome) 시료의 두 서열 단편을 매핑하여 비교하기 때문에 유전체 구조변이를 발굴에 더욱 유용하다.

PEM(Paired-end mapping) 기반의 구조변이 검출 기법은 페어드 엔드 리드(Paired-end read)를 이용한다. 검출하고자 하는 유전체(case)에서 생성된 두 개의 짝지어진 리드(read)는 서로의 거리 정보를 가지고 있다. 참고로 일반적으로 유전체 분석에서 환자군을 'case'라고 표시하고, 정상군을 'control'이라고 표시한다. 두 리드가 이미 서열이 알려진 참조 유전체에 매핑하게 되면, 실제로 참조(reference) 유전체에 매핑된 거리와 case에서의 거리차이를 계산하여 구조변이를 검출한다. 이때, 리드는 순방향과 역방향 모두를 고려하여 참조 유전체에 매핑하게 되므로 전위(inversion) 검출이 가능하다. 짝을 이루는 리드를 찾고 분석하는 PEM기반의 기법들은 싱글 엔드 매핑(Single-end mapping) 기반의 방법들보다 훨씬 높은 해상도를 지원한다. PEM 기반의 구조변이 검출 기법은 두 리드가 매핑된 형태를 분석한다. 두 리드가 맵핑된 형태 내지 특징을 시그네쳐(signature)라고 부르기도 한다. 이 시그네쳐들의 종류와 매핑 형태로 유전체의 구조변이를 검출한다.

하나의 시그네쳐를 이용하여 구조변이가 일어난 위치를 계산하는 것보다 복수의 시그네쳐를 이용하여 구조변이를 검출하는 것이 효과적일 수 있다. 군집화(clustering) 기법은 복수의 시그네쳐를 분류(군집화)하여 하나의 군(cluster)을 대표할 만한 구조변이 위치를 계산한다. 군집화(clustering) 기법은 우연히 매핑되는 부분을 제거하여 예측의 신뢰도를 향상시킬 수 있다. 이때 변이가 일어난 양 끝단 위치를 브레이크포인트(breakpoint)라고 한다. 군을 구성하는 시그네쳐를 결정하는 방법과 실제 브레이크포인트를 계산하는 방법에 따라서 몇 가지 기법으로 구분될 수 있다. 예컨대, 표준 군집화(Standard clustering approach), 가벼운 군집화(Soft clustering approach) 및 분포기반 군집화(Distribution-based clustering)가 있다.

PEM 기법과 다른 분석 방법도 있다. 예컨대, DOC(Depth of coverage) 기반의 구조변이 검출 기법이 있다. 다만 DOC 기반의 분석 방법은 작은 영역에서의 시그네쳐 검출이 어렵고, 브레이크포인트 결정에 한계가 있다.

한편 NGS 기반으로 유전체 구조변이를 검출하는 상용 프로그램들이 있다. 예컨대, MoDIL, SeqSeq, PEMer, VariationHunter, Pindel, BreakDancer 와 ABI SOLiD software Tool 등이 있다. 각각의 도구마다 검출 가능한 시그네쳐와 이를 검출하기 위한 군집화 방법 또는 윈도우를 구성하고 처리하는 방법에 차이가 있다.

설명의 편의를 위하여 이하 NGS 기반의 유전체 분석 기법은 PEM을 사용한다고 가정한다. 다만 이하 설명하는 구조변이 검출 방법이 특정한 유전체 분석 방법론에 제한되는 것은 아니다.

샘플 데이터, 샘플 서열 데이터 또는 샘플 유전체 데이터는 분석하고자 하는 대상의 유전체 데이터를 의미한다. 예컨대, 샘플 서열 데이터는 특정한 질환의 환자의 유전체 데이터일 수 있다. 샘플 데이터는 암 환자(의심자)에 대한 유전체 데이터일 수 있다. 샘플 서열 데이터는 NGS 장치가 서열을 분석한 결과이다. 따라서 샘플 서열 데이터는 NGS 분석 데이터 포맷을 갖는다. 예컨대, 샘플 서열 데이터는 'fastq'와 같은 포맷의 파일일 수 있다.

참조 데이터, 참조 서열 데이터 또는 참조 유전체 데이터는 샘플 서열 데이터 분석을 위한 비교 대상인 데이터를 의미한다. 샘플 서열 데이터와 참조 유전체 데이터의 차이를 비교하여 샘플 서열 데이터에 대한 구조변이를 검출할 수 있다. 참조 유전체 데이터는 실험적 결과를 통해 사전에 마련한 데이터이다. 후술하겠지만, 다양한 인종에 대한 참조 유전체 데이터가 존재한다. 또 각 참조 유전체 데이터는 완성도에서 서로 차이가 있다. 다수의 연구기관이 오랜 기간에 걸쳐 완성한 참조 유전체 데이터는 완성도가 높다. 여기서 완성도는 전체 유전체 서열에서 서열이 밝혀진 부분의 비중(비율)이라고 할 수 있다. 서열이 밝혀진 부분이 많다면 상대적으로 완성도가 높다고 할 수 있다. 특정한 기준값 이상의 완성도를 갖는 참조 유전체 데이터가 존재할 수 있다. 예컨대, 여기서 기준값은 90%일 수 있다.

표준 유전체 데이터는 참조 유전체 데이터와 유사한 의미이다. 다만 이하 표준 유전체 데이터는 기본적으로 연구를 통해 공개된 단일 참조 유전체 데이터라고 정의한다. 예컨대, hg19와 같은 유전체 데이터가 표준 유전체 데이터가 될 수 있다.

다중 참조 유전체 데이터는 복수의 참조 유전체 데이터로 구축된 참조 유전체 데이터 집합이다. 다중 참조 유전체 데이터는 다양한 인종의 참조 유전체 및 분석 오류를 필터링하기 위한 비교 데이터(dbSNP 등)를 이용하여 구축된다. 다중 참조 유전체 데이터에 대해서는 후술한다.

이하 유전체 구조변이 분석은 컴퓨터장치를 통해 수행한다고 가정한다. 컴퓨터장치는 PC, 스마트기기, 네트워크 상의 서버 등과 같이 일정한 데이터를 연산 처리할 수 있는 장치를 의미한다. 유전체 구조변이 분석을 수행하는 컴퓨터장치를 구조변이 검출장치라고도 명명할 수 있다. 컴퓨터장치 내지 구조변이 검출장치에 대해서는 후술한다. 설명의 편의를 위하여 이하 유전체 구조변이 분석의 각 과정은 컴퓨터장치가 수행한다고 가정한다.

도 1은 hg19 참조 유전체와 다양한 인종의 참조 유전체들의 31mer를 비교한 결과이다. 도 1은 hg19 참조 유전체를 기준으로 다른 인종 참조 유전체들의 31mer를 비교한 결과이다. 다른 인종 참조 유전체들은 hg38, HuRef, NA12878, KOREF, AK1, YH, HX, Mongolian, Japanese, dbSNP(INDEL) 및 dbSNP(SNP)를 사용하였다. 도 1은 다른 인종 참조 유전체에서 hg19 참조 유전체 없는 특이적인 31mer의 수를 산출한 결과이다. 도 1을 살펴보면, 서양인 대표 참조 유전체인 hg19에 존재하지 않고 다른 인종의 참조 유전체 존재하는 31mer의 수는 최소 2천 5백만 개부터 최고 3억 7천만 개가 존재한다. 이와 같은 개인 간, 인종 간의 서열 차이를 반영하지 않는다면, 유전체 분석을 정확하게 수행되기 어렵다. 이하 설명하는 구조변이 분석 방법은 개인 간, 인종 간의 오차 없이 유전체 분석을 수행하기 위하여 다중 참조 유전체 데이터를 사용한다.

먼저 다중 참조 유전체 데이터 구축에 대하여 설명한다. 다중 참조 유전체 데이터는 샘플 서열 데이터에 대한 분석 이전에 마련되어야 한다. 다중 참조 유전체 데이터도 컴퓨터 장치가 일정한 데이터 처리를 통해 마련한다.

(1)다중 참조 유전체 데이터는 기본적으로 복수의 인종에 대한 참조 유전체를 포함한다. 예컨대, 다중 참조 유전체 데이터는 hg19, hg38, HuRef, NA12878, KOREF(1.0), AK1, YH(1.0), HX(1.1), Mongolian genome, Japanese genome(v2) 등을 포함한다. 복수의 인종의 참조 유전체 데이터는 인종 간의 서열 차이에서 발생하는 해석 오류를 해결하기 위한 것이다.

(2) 나아가 다중 참조 유전체 데이터는 사용자가 생산한 참조 유전체, dbSNP(INDEL) 및 dbSNP(SNP)을 추가로 포함할 수 있다. dbSNP(INDEL) 및 dbSNP(SNP)는 개인 간 서열 차이에 의한 해석 오류를 해결하기 위한 것이다. 유전체를 필터링하기 위한 데이터라고 할 수 있다.

다중 참조 유전체 데이터는 복수의 유전체 정보로 구축되는데, 복수의 유전체 데이터를 관리하기 위한 자료 구조가 필요하다. 이를 위하여 다중 참조 유전체 데이터는 복수의 인종에 대한 참조 유전체 및 dbSNP 데이터의 k-mer로 구성된다. 나아가 다중 참조 유전체 데이터는 대량의 k-mer들에 대한 해시(hash) 테이블로 표현될 수 있다. 예컨대, 다중 참조 유전체 데이터는 Sparsepp/KMC와 같은 해시 테이블 구조를 자료구조로 사용할 수 있다.

(3) 한편 다중 참조 유전체 데이터는 정상 서열 데이터(정상인의 NGS 분석 결과 데이터)를 추가로 이용할 수 있다. 정상 서열 데이터는 NGS 분석 결과로 fastq같은 포맷의 자료 일 수 있다. 전술한 복수의 인종에 대한 참조 유전체 및 dbSNP 데이터의 k-mer로 구축된 해시 테이블에 정상 서열 데이터가 존재하는 경우, 해시 테이블에 정상 서열 데이터의 k-mer를 포함시킨다. 여기서 k는 일정 크기의 자연수이다. 예컨대, k는 31일 수 있다.

도 2는 다중 참조 유전체에 기반한 염색체 구조변이 검출 과정(100)에 대한 순서도의 예이다. 컴퓨터 장치는 사전에 다중 참조 유전체 데이터를 구축한다(110). 전술한 바와 같이 컴퓨터 장치는 복수의 인종에 대한 참조 유전체, 공개된 SNP(single nucleotide polymorphism) 데이터 및 공개된 INDEL(small insertions/deletions) 데이터로 k-mer 자료구조를 구축한다. 공개된 SNP데이터는 dbSNP(SNP)를 사용할 수 있다. 공개된 INDEL 데이터는 dbSNP(INDEL)를 사용할 수 있다. 이와 같이 컴퓨터장치는 복수의 참조 유전체, dbSNP 정보 등으로부터 k-mer 해시 데이터베이스(다중 참조 유전체 데이터)를 사전에 생성하고, 생성한 다중 참조 유전체 데이터를 로딩한다.

컴퓨터 장치는 분석 대상인 샘플 서열 데이터를 입력받는다(120). 샘플 서열 데이터는 NGS 분석 결과이다. 샘플 서열 데이터는 fastq와 같은 포맷일 수 있다. 샘플 서열 데이터는 환자 또는 환자 의심자(이하 사용자라 함)에 대한 유전체 분석 결과일 수 있다. 샘플 서열 데이터는 사용자의 질병 조직(예컨대, 암 조직)에서 유래한 서열 분석 데이터를 포함한다. 또한 샘플 서열 데이터는 사용자의 혈액에서 유래한 서열 분석 데이터를 포함할 수 있다. 샘플 서열 데이터는 사용자의 조직 및 혈액 각각에서 유래한 서열 분석 데이터를 모두 포함할 수 있다.

컴퓨터 장치는 사전에 구축한 다중 참조 유전체 데이터의 해시 테이블을 이용하여 샘플 서열 데이터 리드가 해시 테이블에 존재하는지 여부를 판단한다(130). 이 과정은 다중 참조 유전체 데이터를 이용한 샘플 서열 데이터의 필터링이라고 할 수 있다. 컴퓨터 장치는 샘플 서열 데이터의 리드 중 해시 테이블에 존재하는 k-mer 리드에 대해서는 구조변이가 없는 부분이라고 판단할 수 있다(130의 YES). 반대로 컴퓨터 장치는 샘플 서열 데이터의 리드 중 해시 테이블에 존재하지 않는 k-mer 리드를 기준으로 구조변이 유형에 대한 분석을 수행한다(130의 NO).

컴퓨터 장치는 샘플 서열 데이터의 리드 중 해시 테이블에 존재하지 않는 k-mer 리드를 검출한다(140). 샘플 서열 데이터의 리드 중 해시 테이블에 존재하지 않는 k-mer 리드를 이하 타깃 k-mer 리드라고 명명한다.

컴퓨터 장치는 타깃 k-mer 리드를 다시 다른 참조 유전체 데이터와 비교한다(150). 컴퓨터 장치는 타깃 k-mer 리드를 표준 참조 데이터에 매핑한다(150). 이때 표준 참조 데이터는 완성도가 높은 참조 유전체 데이터 중 어느 하나를 사용할 수 있다. 예컨대, 표준 참조 데이터는 hg19 또는 hg38를 사용할 수 있다. 또는 사용자가 특정 인종이라면 해당 인종에 대한 참조 데이터를 사용할 수도 있다. 예컨대, 한국인의 구조변이 분석이라면 표준 참조 데이터로 KOREF를 사용할 수도 있다. 나아가 표준 참조 데이터도 경우에 따라서는 하나 이상의 참조 데이터로 구성할 수도 있다. 참조 유전체 데이터 중 비교적 완성도가 높은 hg19를 사용한다고 가정한다.

컴퓨터 장치는 타깃 k-mer 리드를 hg19에 매핑한다. 컴퓨터 장치는 표준 참조 데이터(예컨대, hg19)에 매핑된 결과를 기준으로 샘플에 대한 구조 변이 유형을 예측한다(160). 컴퓨터 장치는 타깃 k-mer 리드와 표준 참조 데이터를 매핑하여 브레이크포인트 리스트를 산출할 수 있다. 또 컴퓨터 장치는 타깃 k-mer 리드와 표준 참조 데이터를 매핑하여 서열이 매칭된 결과(시그네처)를 산출할 수 있다. 최종적으로 컴퓨터 장치는 브레이크포인트 리스트 및 서열이 매칭된 특징/형태/패턴(시그네처)을 기준으로 샘플 서열 데이터에 대한 구조 변이 유형을 예측할 수 있다. 브레이크포인트 내지 서열 매핑 결과를 이용하여 구조 변이 유형을 예측하는 기준은 종래 구조 변이 검출 기법과 유사할 수 있다. 브레이크포인트 내지 서열 매핑 결과를 이용하여 모든 유형의 구조 변이 유형을 예측할 수 있다.

도 3은 1000 게놈 프로젝트(Genome project) 샘플에 대한 k-mer 필터링 결과에 대한 예이다. 도 3은 1000 샘플 10개의 k-mer의 필터링 결과이다. 도 3은 다중 참조 유전체 데이터를 사용하는 경우 분석에서 오류를 유발하는 정보를 효과적으로 필터링할 수 있다는 것을 보여준다. 이를 위하여 점라인(germline)과 체세포(somatic) 샘플을 사용하였다. 도 3은 막대 그래프(bar-plot)에서 'Reference k-mer'는 제거된 k-mer를 나타내고, 'Non-reference k-mer'는 필터링 이후 남은 k-mer를 나타낸다. Non-reference k-mer가 전술한 타깃 k-mer 리드에 해당한다. 도 3을 살펴보면, 모든 샘플에 대하여 k-mer 필터링을 통해 구조변이와 상관 없는 정보를 가진 k-mer를 효과적으로 제거할 수 있다는 것을 알 수 있다.

도 4는 구조변이가 검증된 유방암 샘플에 대한 k-mer 필터링 결과에 대한 예이다. 도 4는 TCGA-A1-A0SM 샘플(breast cancer)의 RSF1-PHF12 염색체 재배열(chromosomal rearrangement) 위치에 대한 필터링 결과이다. 도 4는 전체 데이터에 대한 hg19 매핑 결과와 k-mer 필터링된 데이터에 대한 hg19 매핑 결과를 도시한다. 도 4(A)는 염색체 11번에 대한 예이고, 도 4(B)는 염색체 17번에 대한 예이다. 도 4에서 구조변이는 해당 샘플의 11개 구조변이 중 RSF1-PHF12 내부 염색체 재배열 결과이다. 도 4(A) 및 도 4(B)에서 점선 위 영역은 k-mer 이전 결과이다. 점선 위 영역은 전체 데이터를 hg19에 맵핑한 결과이다. 도 4(A) 및 도 4(B)에서 점선 아래 영역은 k-mer후 결과이다. 점선 아래 영역은 k-mer 필터링 후에 타깃 k-mer 리드만 사용하여 hg19에 맵핑한 결과이다.

도 4에서 세로축 실선은 브레이크포인트를 나타낸다. 구조 변이의 브레이크포인트 정보를 제공하는 데이터는 검은색으로 표시하였다. 도 4를 살펴보면, k-mer 필터링 이후에 브레이크포인트 주변에 오정보를 가진 데이터가 효과적으로 제거된 것을 알 수 있다. 또한 구조변이의 브레이크포인트 정보를 제공하는 데이터를 더욱 쉽게 구별할 수 있다.

도 5 내지 도 7은 전술한 다중 참조 유전체 데이터를 이용한 구조 변이 검출 기법(본원 구조 변이 검출 기술)의 효과를 나타낸다. 본원 구조 변이 검출 기술은 "다중 참조 유전체"로 표시하였다. 효과 검증을 위하여 구조변이를 인위적으로 발생시킨 데이터 세트를 이용하였다. 또한, 서열 깊이 내지 암 조직 순도에 따른 구조변이 예측의 정확도를 나타내는 실험결과의 예이다. 서열 깊이( sequencing depth)와 암 조직 순도(tumor purity)는 구조변이를 검출할 때 성능에 가장 큰 영향을 준다. 일반적으로 서열 깊이가 10x일 때, 암 조직 순도 10%일 때 구조변이 검출 성능이 가장 떨어지는 것으로 알려져 있다.

종래 예측 프로그램과 본 기술의 효과를 비교하였다. 본원 구조 변이 검출 기법에 대한 실험결과(데이터)는 검음색으로 표시하였다. 전술한 본원 구조 변이 검출 기법은 k-mer 필터링 이후 표준 참조 유전체와 매핑한 결과를 이용한다. 이하 실험 결과는 이 과정을 통하여 정확한 구조변이 유형을 예측할 수 있는지 비교하기 위한 것이다. 본원 구조 변이 검출 기법을 이용하여 다양한 구조변이 유형을 효과적으로 검출할 수 있는지 검증한다. 구조변이 유형 중 결실, 전위, 역위, 복제 등 총 555개의 구조변이를 가지고 상용 프로그램들과 함께 성능 평가를 시행하였다.

도 5(a)와 도 6은 다양한 서열 깊이에 대한 본원 구조 변이 검출 기법의 효과를 나타낸다. 실험을 위하여 서열 깊이를 10x부터 60x까지 데이터 세트를 만들었다. 종래 예측 프로그램은 NOVOBREAK, LUMPY, SvABA, MANTA, DELLY를 사용하였다. 결과적으로 도 5(a)를 보면 구조변이를 검출할 때 가장 성능이 떨어지는 서열 깊이 10x의 결과에서도 본원 구조 변이 검출 기법은 F1-score 0.78로 가장 좋은 성능을 보였으며, 깊이가 증가될수록 성능이 향상되어 F1-score 0.92를 보였다.

도 6은 서열 깊이 별 결과에서 다양한 구조변이에 대한 예측 정확도를 나타낸다. 도 6을 살펴보면, 모든 구조변이 유형에서 가장 높은 성능을 보이고 있다.

도 5(b)와 도 7은 다양한 암 조직 순도에 대한 본원 구조 변이 검출 기법의 효과를 나타낸다. 실험을 위하여 정상 유전체 정보와 구조변이를 반영한 유전체 정보를 섞어서 암 조직 순도 10%부터 100%까지 데이터 세트를 만들었다. 도 5(b)를 보면, 암 조직 순도에서는 가장 검출하기 어려운 10% (암 유전체 내 구조변이 반영 정보가 가장 미약한 조건)에서도 F1-score 0.59 정도를 보였다. 종래의 기술 중 가장 높은 성능을 보인 NOVOBREAK의 F1-score 0.48 (MANTA: 0.34, LUMPY: 0.38, DELLY: 0.14)이었다는 점과 비교했을 때 본원 구조변이 검출 기법이 훨씬 더 좋은 성능을 보이고 있다.

도 7은 암 조직 순도 별 결과에서 구조변이 별 예측 정확도를 나타낸다. 도 7는 깊이 별 결과에서와 동일하게 순도 10%에서도 대부분의 구조변이 유형에서 가장 높은 precision과 recall을 보이고 있다.

도 8은 구조변이 검출 장치(200)의 구조에 대한 예이다. 도 8은 전술한 다중 참조 유전체 데이터를 이용한 구조변이 검출을 위한 장치이다. 도 8은 전술한 컴퓨터장치에 해당한다.구조변이 검출 장치는 물리적으로 다양한 형태로 구현될 수 있다. 예컨대, 도 8의 하단에 도시한 바와 같이 구조변이 검출 장치는 PC(A), 네트워크 상의 서버(B), 전용 분석 칩셋(C) 등과 같은 형태로 구현될 수 있다.

구조변이 검출 장치(200)는 저장 장치(210), 메모리(220), 연산장치(230), 인터페이스 장치(240) 및 통신장치(250)를 포함한다.

통신장치(250)는 유선 또는 무선 네트워크를 통해 일정한 정보를 수신하고 전송하는 구성을 의미한다. 통신 장치(250)는 외부 객체로부터 샘플 서열 데이터, 다중 참조 유전체 데이터 또는 다중 참조 유전체 데이터 구축을 위한 데이터(복수의 참조 유전체 데이터, dbSNP 데이터 등)를 수신할 수 있다. 통신 장치(250)는 사용자 단말, NGS 분석 장치, NGS 분석 서버 등으로부터 일정한 데이터를 수신할 수 있다. 통신 장치(250)는 구조변이 유형 분석 결과를 사용자 단말 이나 별도의 서버 등에 송신할 수 있다.

저장 장치(210)는 전술한 구조변이 분석 기법을 구현한 프로그램(코드)을 저장할 수 있다. 저장 장치(210)는 다중 참조 유전체 데이터, 샘플 서열 데이터 등을 저장할 수 있다.메모리(220)는 노드 장치(200)가 수신한 정보 또는 연산 장치(230)의 동작에 따라 임시로 발생하는 데이터를 저장할 수 있다.

인터페이스 장치(240)는 외부 사용자로부터 일정한 명령을 입력받는 장치이다. 인터페이스 장치(240)는 물리적으로 연결된 입력 장치 또는 외부 저장 장치로부터 노드 장치(200) 동작에 기본적으로 필요한 프로그램 내지 데이터를 입력받을 수 있다. 예컨대, 인터페이스 장치(240)는 분석 대상인 샘플 서열 데이터를 입력받을 수 있다. 또 인터페이스 장치(240)는 다중 참조 유전체 데이터를 입력받을 수 있다. 또 인터페이스 장치(240)는 다중 참조 유전체 데이터 구축을 위한 다양한 참조 데이터 등을 입력받을 수 있다.

통신 장치(250) 내지 인터페이스 장치(240)는 외부로부터 일정한 데이터 내지 명령을 전달받는 장치이다. 통신 장치(250) 내지 인터페이스 장치(240)를 입력장치라고 명명할 수도 있다.

연산 장치(230)는 입력장치로부터 입력된 도는 저장장치(210)에 저장된 데이터를 이용하여 다중 참조 유전체 데이터를 생성할 수 있다. 연산 장치(230)는 다중 참조 유전체 데이터와 샘플 서열 데이터를 비교하여 샘플 서열 데이터의 리드(read) 중 상기 다중 참조 유전체에 존재하지 않는 적어도 하나의 타깃 k-mer 리드를 결정할 수 있다. 연산 장치(230)는 적어도 하나의 타깃 k-mer 리드를 표준 참조 유전체 데이터에 매핑하여 결정되는 구조 변이의 후보 영역 및 브레이크포인트를 기준으로 구조변이 유형을 예측할 수 있다. 연산 장치(230)는 데이터를 처리하고, 일정한 연산을 처리하는 프로세서, AP, 프로그램이 임베디드된 칩과 같은 장치일 수 있다.

도 9는 구조변이 검출 시스템(300)에 대한 예이다. 도 9는 네트워크를 이용하여 유전체 구조변이 분석 서비스를 제공하는 실시예에 대한 것이다. 시스템(300)은 사용자 단말(310, 320) 및 서비스 서버(350)를 포함한다. 사용자 단말(310, 320)은 클라이언트 장치에 해당한다. 도 9에서 서비스 서버(350)가 전술한 구조변이 검출 장치에 해당한다. 도 9에서 각 객체 간 보안이나 통신에 대한 자세한 설명은 생략한다. 각 객체는 통신 수행하기 전에 일정한 인증을 수행할 수도 있다. 예컨대, 인증에 성공한 사용자만이 서비스 서버(350)에 구조 변이 분석을 요청할 수 있다.

사용자는 사용자 단말을 통해 서비스 서버(350)에 유전체 구조 변이 분석을 요청할 수 있다. 사용자는 샘플 DB(330)로부터 샘플 서열 데이터를 수신할 수 있다. 샘플 DB(330)는 특정 사용자에 대한 NGS 분석 결과를 저장한다. 샘플 DB(330)는 네트워크에 위치하는 객체일 수 있다. 또는 샘플 DB(330)는 단순한 저장 매체일 수도 있다. 사용자는 사용자 단말(310)을 통해 샘플 서열 데이터를 서비스 서버(350)에 전달한다. 샘플 서열 데이터를 포함한 분석 요청을 수신한 서비스 서버(350)는 전술한 과정을 통하여 샘플 서열 데이터에 대한 구조 변이 유형을 예측한다. 서비스 서버(350)는 사전에 분석을 위한 다중 참조 유전체 데이터를 구축하고, 표준 참조 유전체 데이터를 획득했다고 가정한다. 서비스 서버(350)는 참조 유전체 DB(360)로부터 참조 유전체 데이터들을 수신할 수 있다. 서비스 서버(350)는 dbSNP(370)로부터 SNP 및 INDEL 데이터를 수신할 수 있다. 서비스 서버(350)는 수신한 전술한 방법을 통하여 복수의 참조 유전체 데이터와 dbSNP를 이용하여 다중 참조 유전체 데이터를 구축할 수 있다. 서비스 서버(350)는 생성한 구조변이 분석 결과를 사용자 단말(310)에 전송할 수 있다. 또는 도면에 도시하지 않았지만, 서비스 서버(350)는 구조변이 분석 결과를 별도의 저장 매체에 저장하거나, 별도의 객체에 전달할 수도 있다.

사용자는 NGS 분석 과정에서 샘플 서열 데이터를 사용자 단말(320)을 통해 서비스 서버(350)에 전달할 수도 있다. 사용자 단말(320)은 NGS 분석 장치로부터 샘플 서열 데이터를 수신할 수 있다. 샘플 서열 데이터를 포함한 분석 요청을 수신한 서비스 서버(350)는 전술한 과정을 통하여 샘플 서열 데이터에 대한 구조 변이 유형을 예측한다. 서비스 서버(350)는 사전에 분석을 위한 다중 참조 유전체 데이터를 구축하고, 표준 참조 유전체 데이터를 획득했다고 가정한다. 서비스 서버(350)는 생성한 구조변이 분석 결과를 사용자 단말(320)에 전송할 수 있다. 또는 도면에 도시하지 않았지만, 서비스 서버(350)는 구조변이 분석 결과를 별도의 저장 매체에 저장하거나, 별도의 객체에 전달할 수도 있다.

또한, 상술한 바와 같은 유전체 구조변이 검출 방법은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.

Claims

컴퓨터장치가 샘플 서열 데이터를 입력받는 단계;

상기 컴퓨터장치가 다중 참조 유전체 데이터와 상기 샘플 서열 데이터를 비교하여 상기 샘플 서열 데이터의 리드(read) 중 상기 다중 참조 유전체에 존재하지 않는 적어도 하나의 k-mer 리드를 결정하는 단계;

상기 컴퓨터장치가 상기 적어도 하나의 k-mer 리드를 표준 참조 유전체 데이터에 매핑하여 구조변이의 후보 영역 및 브레이크포인트를 결정하는 단계; 및

상기 컴퓨터장치가 상기 매핑 결과에 따른 브레이크포인트 및 서열 매핑 패턴을 기준으로 상기 샘플 서열 데이터에 대한 구조변이 유형을 예측하는 단계를 포함하는 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법.
제1항에 있어서,

상기 다중 참조 유전체 데이터는 복수의 인종에 대한 참조 유전체 데이터를 포함하는 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법.
제1항에 있어서,

상기 다중 참조 유전체 데이터는 복수의 인종 각각에 대한 참조 유전체 데이터, 공개된 SNP(single nucleotide polymorphism) 데이터 및 공개된 INDEL(small insertions/deletions) 데이터를 포함하는 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법.
제1항에 있어서,

상기 컴퓨터장치가 공개된 SNP(single nucleotide polymorphism) 데이터 및 공개된 INDEL(small insertions/deletions) 데이터를 기준으로 상기 샘플 서열 데이터의 리드 중 SNP 내지 INDEL에 해당하는 서열을 상기 k-mer 리드에서 배제하는 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법.
제1항에 있어서,

상기 다중 참조 유전체 데이터는 복수의 인종 각각에 대한 참조 유전체 데이터, 공개된 SNP(single nucleotide polymorphism) 데이터 및 공개된 INDEL(small insertions/deletions) 데이터로 구성된 k-mer 자료구조에 정상 유전체 서열 데이터의 k-mer를 추가한 데이터인 다중 레퍼런스에 기반한 유전체 구조변이 검출 방법.
제5항에 있어서,

상기 k-mer 자료구조는 Sparsepp 해시 테이블인 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법.
제1항에 있어서,

샘플 서열 데이터는 환자의 유전체 서열 데이터인 다중 레퍼런스에 기반한 유전체 구조변이 검출 방법.
제1항에 있어서,

상기 표준 참조 유전체 데이터는 유전체 서열의 완성도가 기준값 이상인 참조 유전체 데이터인 다중 레퍼런스에 기반한 유전체 구조변이 검출 방법.
제1항에 있어서,

상기 표준 참조 유전체 데이터는 hg19, hg38 및 KOREF 중 적어도 하나인 다중 레퍼런스에 기반한 유전체 구조변이 검출 방법.
컴퓨터에서 제1항 내지 제9항 중 어느 하나의 항에 기재된 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
샘플 서열 데이터를 입력받는 입력장치;

다중 참조 유전체 데이터, 표준 참조 유전체 데이터 및 상기 다중 참조 유전체 데이터와 상기 표준 참조 유전체 데이터를 각각 상기 샘플 서열 데이터와 비교하여 상기 샘플 서열 데이터에 대한 구조변이 유형을 예측하는 프로그램을 저장하는 저장장치; 및

상기 다중 참조 유전체 데이터와 상기 샘플 서열 데이터를 비교하여 상기 샘플 서열 데이터의 리드(read) 중 상기 다중 참조 유전체에 존재하지 않는 적어도 하나의 k-mer 리드를 결정하고, 상기 적어도 하나의 k-mer 리드를 표준 참조 유전체 데이터에 매핑하여 결정되는 브레이크포인트 및 서열 매핑 패턴을 기준으로 상기 구조변이 유형을 예측하는 연산장치를 포함하는 다중 레퍼런스에 기반한 유전체 구조변이 검출 장치.
제11항에 있어서,

상기 다중 참조 유전체 데이터는 복수의 인종 각각에 대한 참조 유전체 데이터, 공개된 SNP(single nucleotide polymorphism) 데이터 및 공개된 INDEL(small insertions/deletions) 데이터를 포함하는 다중 레퍼런스에 기반한 유전체 구조변이 검출 장치.
제11항에 있어서,

상기 다중 참조 유전체 데이터는 복수의 인종 각각에 대한 참조 유전체 데이터, 공개된 SNP(single nucleotide polymorphism) 데이터 및 공개된 INDEL(small insertions/deletions) 데이터로 구성된 k-mer 자료구조에 정상 유전체 서열 데이터의 k-mer를 추가한 데이터인 다중 레퍼런스에 기반한 유전체 구조변이 검출 장치.
제11항에 있어서,

상기 표준 참조 유전체 데이터는 유전체 서열의 완성도가 기준값 이상인 참조 유전체 데이터인 다중 레퍼런스에 기반한 유전체 구조변이 검출 장치.
제11항에 있어서,

상기 표준 참조 유전체 데이터는 hg19, hg38 및 KOREF 중 적어도 하나인 다중 레퍼런스에 기반한 유전체 구조변이 검출 장치.