WO2023214620A1

WO2023214620A1 - 진양성 변이 및 위양성 변이를 구별하는 piseq 장치 및 알고리즘

Info

Publication number: WO2023214620A1
Application number: PCT/KR2022/012154
Authority: WO
Inventors: 박승구; 이재학
Original assignee: (주)디엑솜
Priority date: 2022-05-03
Filing date: 2022-08-16
Publication date: 2023-11-09
Also published as: KR20230155107A

Abstract

본 발명은 인위적인 바코드 시퀀스가 필요 없기 때문에 특수 제작된 어댑터(adapter)를 사용할 필요가 없고 바코드를 추가로 시퀀싱해야 하는 낭비를 줄일 수 있으며, 바코드 교환의 영향으로부터 자유로울 수 있는 바, 진양성(true positive) 변이를 효과적으로 걸러낼 수 있으며, 검출 민감도를 높일 수 있다. 또한 서열 추출부터 정보 분석의 단계를 하나의 장치 또는 알고리즘으로 일률화하여 시간과 비용을 절약할 수 있다. 일 실시예에 따르면 본원에 따른 장치 및 알고리즘을 활용하면 차세대 염기서열 분석을 이용하여 낮은 비율로 존재하는 체성돌연변이(somatic mutation)를 검출하거나 기타 0.01% 이하의 돌연변이를 검출할 수 있다.

Description

진양성 변이 및 위양성 변이를 구별하는 PISEQ 장치 및 알고리즘

본 발명은 진양성 변이 및 위양성 변이를 구별하는 PiSeq 장치 및 알고리즘에 관한 것이다.

일반적으로, 차세대염기서열분석(next-generation sequencing, NGS) 검사과정은 높은 민감도로 분석할 수 없을 뿐 아니라, NGS 라이브러리(library) 제작중 발생하는 PCR 에러 혹은 NGS 장비에서 발생하는 시퀀싱 에러 때문에 민감하게 돌연변이를 검출할 수 없으며, 통상적으로 1~5% 정도 검출 한계를 가지게 된다.

이러한 검출 한계를 극복하기 위하여 개발된 것이 분자바코드 방법이다. 분자바코드 법은 2011년 처음 개발된 후 여러 분야에서 적용이 확대되고 있다. 분자바코드(molecular barcode 혹은 molecular index)는 6~12 개 정도 되는 염기서열로서 각 위치 마다 A, T, C, G 네 가지 염기를 무작위로 조합하여 만든 것으로 시료의 DNA 가닥 하나마다 다른 바코드가 붙도록 한다. 이는 원 시료의 DNA 분자가 가닥별로 다르게 표기(tagging)되고 많은 양의 NGS 데이터를 얻은 후 각 바코드 별로 따로 분석을 하는 방식이다. 이론적으로 한 가닥의 DNA에서 유래한 PCR 복제 산물은 모두 같은 염기서열을 가진다. 따라서 같은 바코드를 가진 NGS 시퀀싱 리드(read)는 동일한 염기서열을 가져야 하며, 변이가 있는 DNA 가닥도 마찬가지이다. 만일 특정 바코드를 가진 NGS 시퀀싱 리드에서 변이의 비율이 100%가 아니라면 이는 시퀀싱 혹은 PCR 에러에 의해 생긴 것(random error)으로 간주할 수 있다. 이렇게 에러를 제거하면 진양성(true positive) 변이를 걸러낼 수 있기 때문에 검출 민감도를 높일 수 있다.

최근 들어 특히 암 조직에서 돌연변이 비율이 낮은 경우에 민감도 높은 검사법으로 분자바코드 법이 적용되고 있고 최근에는 혈장(plasma)에 극미량으로 존재하는 암 유래 DNA (cell-free tumor DNA)의 돌연변이를 검출하는 액체생검(liquid biopsy)에 있어 분자바코드 법이 가장 유망한 검사법으로 주목받고 있다. 최근 여러 연구에서 이러한 방법으로 암 돌연변이를 민감하고 정확하게 검출할 수 있음을 입증하였다(Wang et al. Nature 2014; Rashid et al. Blood 2014; Schmitt et al. PNAS 2012; Schmitt et al. Blood 2015).

분자 바코드의 문제점은 PCR 에러를 확인하기 어렵다는 것에 있다(Wikipedia 및 Kennedy et al. Nat Protocols 2014). 분자바코드를 이용하여도 PCR 초반cycle에 발생하는 에러는 매우 감별이 어렵다. 이를 극복하기 위해서 duplex sequencing (Kennedy et al. Nat Protocols 2014) 등이 개발되었다. 그러나 duplex sequencing은 분자 바코드는 DNA 양 끝에 두 개의 바코드를 붙여 조합하는 경우 PCR 증폭 과정에서 양쪽 바코드가 서로 다르게 엉키는 현상인 바코드 교환(barcode hopping 혹은 index hopping)을 교정할 수 없는 단점이 있다. 또한 분자바코드를 만들기 위해서는 6~12 개 정도 되는 인위적인 염기서열로 된 올리고뉴클레오티드(oligonucleotide)로 된 어댑터(adapter)를 만들어야 하는 번거로움이 있고, 분자바코드 부위를 추가로 시퀀싱해야 하기 때문에 이에 대한 시약비용이 추가로 들게 되는 실정이다.

일반적인 분자 바코드는 분석을 통해 얻어진 정확한 염기서열을 표준 염기서열과 비교하여, 유전자의 변이를 확인하고 gene CNV, chromosome CNV 및 각각의 데이터 베이스를 확인하여 해당 유전자의 변이를 등급별로 나누어 환자의 질병을 예측하고 진단한다. 그러나 이 모든 일련의 과정이 한번에 자동화 되어 있지 않기 때문에 많은 시간을 소요하게 되고, 많은 전문 인력을 필요로 하게 된다.

본 발명은 위 문제를 해결하기 위해, 시퀀싱 혹은 PCR 중에 발생한 에러(random error), 특히 위양성 변이(false-positive mutation)와 진양성 변이(true-positive mutation)을 효율적으로 구별할 수 있는 장치 및 알고리즘을 제공하고자 한다.

또한 위 변이의 구별 이후 대표 서열을 추출하여 유전체의 정보를 분석하는 단계, 분석한 정보를 외부 데이터와 연동하는 단계를 일률화하고자 한다.

상기 과제를 해결하기 위해, 본원은 다음과 같은 발명을 제공한다.

본원의 제1측면은 유전체의 위양성(false-positive) 변이를 판별하는 장치 에 있어서, 유전체 리드(read)를 포지션 그룹(position group) 별로 분류하는 변이 위치 기반 군집부 및 상기 포지션 그룹마다 공통배열을 추출하고 각 공통배열마다 발견되는 변이를 진양성(true-positive) 또는 위양성(false-positive) 변이로 판별하는 판별부를 포함하는 장치를 제공한다.

본원의 제2측면은 유전체의 위양성(false-positive) 변이를 판별하는 방법에 있어서, 유전체 리드(read)를 포지션 그룹(position group) 별로 분류하는 단계 및 상기 포지션 그룹마다 공통배열을 추출하고 각 공통배열마다 발견되는 변이를 진양성(true-positive) 또는 위양성(false-positive) 변이로 판별하는 단계를 포함하는 방법을 제공한다.

위 과제의 해결 수단은 제한된 것이 아니며, 통상의 기술자가 용이하게 이해할 수 있는 모든 범위의 수단을 모두 포함하는 것으로 해석되어야 한다.

본 발명은 인위적인 바코드 시퀀스가 필요 없기 때문에 특수 제작된 어댑터(adapter)를 사용할 필요가 없고 바코드를 추가로 시퀀싱해야 하는 낭비를 줄일 수 있으며, 바코드 교환의 영향으로부터 자유로울 수 있는 바, 진양성(true positive) 변이를 효과적으로 걸러낼 수 있으며, 검출 민감도를 높일 수 있다.

또한 서열 추출부터 정보 분석까지의 단계를 하나의 장치 또는 알고리즘으로 일률화하여 시간과 비용을 절약할 수 있다.

일 실시예에 따르면 본원에 따른 장치 및 알고리즘을 활용하면 차세대 염기서열 분석을 이용하여 낮은 비율로 존재하는 체성돌연변이(somatic mutation)를 검출하거나 기타 0.01% 이하의 돌연변이를 검출할 수 있다.

도 1a는 본원에 따른 PiSeq 장치에 대한 블록도이다.

도 1b는 PiSeq의 고유한 알고리즘으로 유전체 위치로 분자 바코드를 할당하는 방법의 원리를 간략히 나타낸 도면이다.

도 1c는 일 실시예에 따라 NGS 데이터를 이용하여 상기 명시된 유전체 위치로 분자 바코드를 할당하는 방법을 통한 체세포 돌연변이 유전형을 예측하는 방법의 순서도를 도시한 도면이다.

도 1d는 실제 데이터를 사용했을 때 나타나는 시퀀싱 에러(Sequencing error)를 나타낸 도면이다.

도 1e는 실제 데이터에 대해 PiSeq 장치 또는 알고리즘을 적용하여 진양성 변이만을 남긴 결과(True variant)를 나타낸 도면이다.

도 2a는 실시예 2 내지 5에서 사용된 표준물질의 AF(allele frequency)와 시퀀싱(sequencing) 별 배치에 대한 조건을 나타낸 도면이다.

도 2b는 실시예 2에 따라 표준물질에 대한 LoD (Limit of Detection; 95%의 sensitivity를 보이는 지점의 AF)를 추정한 결과를 나타낸 도면이다.

도 2c는 실시예 2에 따라 표준물질의 AF (x축)와 PiSeq 결과가 보여주는 AF (y축)를 상대비교하는 데이터를 나타낸 도면이다.

도 2d는 실시예 2에 따라 모든 변이에 대해 표준물질의 AF (x축)와 PiSeq 결과가 보여주는 AF (y축)를 상대비교하는 데이터를 나타낸 도면이다.

도 2e는 실시예 2에 따라 SNVs(Single Nucleotide Variants)에 대해 표준물질의 AF (x축)와 PiSeq 결과가 보여주는 AF (y축)를 상대비교하는 데이터를 나타낸 도면이다.

도 2f는 실시예 2에 따라 INDELs(Insertion-Deletion mutations)에 대해 표준물질의 AF (x축)와 PiSeq 결과가 보여주는 AF (y축)를 상대비교하는 데이터를 나타낸 도면이다.

도 3a는 실시예 3에 따라 여러 암환자 50명의 임상샘플로 PiSeq (ctDNA) 데이터를 분석한 결과에서 변이를 많이 보이는 상위 30개의 유전자 리스트 및 변이 종류를 나타낸 도면이다.

도 3b는 실시예 3에 따라 조직 및 혈액에서의 Tumor mutation burden (TMB) 상관관계를 나타낸 도면이다.

도 3c는 실시예 3에 따라 각 암종별 샘플에 대해 PiSeq 장치 또는 알고리즘을 이용하여 데이터 분석 후 보이는 TMB와 AF의 분포도를 나타낸 도면이다.

도 3d는 실시예 3에 따라 ctDNA 및 tissue에서 검출된 변이의 분포도를 나타낸 도면이다.

도 4는 실시예 4에 따라 표준물질, 암환자 샘플, 정상인 샘플에 대해 PiSeq 알고리즘을 통하여 분석된 시퀀싱 결과의 통계값을 보여주는 도면이다.

도 5a는 본원의 실시예 5에 따라 세포주 샘플을 TMB500 패널을 통하여 시퀀싱한 후 PiSeq 알고리즘을 통해 분석한 유전자 복제수(copy number)의 검정결과(validation result을 나타낸 도면이다.

도 5b는 실시예 5에 따라 종양 세포에서 특정 유전자의 복제수 변이(copy cumber)가 높은 경우에서, PiSeq에 의하여 분석된 CNV를 나타낸 도면이다.

도 5c는 도 5b의 일부 확대도이다.

도 5d는 실시예 5에 따라 종양 세포에서 특정 유전자의 복제수 변이(copy cumber)가 낮은 경우에서, PiSeq에 의하여 분석된 CNV를 나타낸 도면이다.

도 5e는 도 5d의 일부 확대도이다.

도 5f는 실시예 5에 따라 PiSeq으로 분석한 염색체 수준 CNVs를 보여주는 예시 도면이다.

도 5g는 실시예 5에 따라 PiSeq으로 분석한 염색체 수준 CNVs를 보여주는 예시 도면이다.

도 5h는 실시예 5에 따라 TCGA(The Cancer Genome Atlas) 데이터베이스의 유방암(BRCA; breast cancer) 데이터를 이용하여 WES(Whole exome sequencing)과 본원에 따른 장치 또는 방법이 적용된 TMB 500 패널을 이용해 염색체 수준의 CNVs을 분석한 결과를 나타낸 도면이다.

도 5i는 실시예 5에 따라 TCGA(The Cancer Genome Atlas) 데이터베이스의 장암(COAD; colorectal cancer) 데이터를 이용하여 WES(Whole exome sequencing)과 본원에 따른 장치 또는 방법이 적용된 TMB 500 패널을 이용해 염색체 수준의 CNVs을 분석한 결과를 나타낸 도면이다.

도 5j는 실시예 5에 따라 TCGA(The Cancer Genome Atlas) 데이터베이스의 간암과 간내담관암(LIHC; liver cnacer and intrahepatic bile duct cancer) 데이터를 이용하여 WES(Whole exome sequencing)과 본원에 따른 장치 또는 방법이 적용된 TMB 500 패널을 이용해 염색체 수준의 CNVs을 분석한 결과를 나타낸 도면이다.

도 5k는 실시예 5에 따라 TCGA(The Cancer Genome Atlas) 데이터베이스의 폐암(LUSC; lung cancer) 데이터를 이용하여 WES(Whole exome sequencing)과 본원에 따른 장치 또는 방법이 적용된 TMB 500 패널을 이용해 염색체 수준의 CNVs을 분석한 결과를 나타낸 도면이다.

도 5l은 실시예 5에 따라 TCGA(The Cancer Genome Atlas) 데이터베이스의 위암(STAD; stomach cancer) 데이터를 이용하여 WES(Whole exome sequencing)과 본원에 따른 장치 또는 방법이 적용된 TMB 500 패널을 이용해 염색체 수준의 CNVs을 분석한 결과를 나타낸 도면이다.

도 5m은 실시예 5에 따라 TCGA(The Cancer Genome Atlas) 데이터베이스의 난소암(OV; ovarian cancer) 데이터를 이용하여 WES(Whole exome sequencing)과 본원에 따른 장치 또는 방법이 적용된 TMB 500 패널을 이용해 염색체 수준의 CNVs을 분석한 결과를 나타낸 도면이다.

아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.

본원 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.

본원 명세서 전체에서 사용하는 정도의 용어 "약", "실질적으로" 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본원의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본원 명세서 전체에서 사용하는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.

본원 명세서 전체에서, 마쿠시 형식의 표현에 포함된 "이들의 조합(들)"의 용어는 마쿠시 형식의 표현에 기재된 구성 요소들로 이루어진 군에서 선택되는 하나 이상의 혼합 또는 조합을 의미하는 것으로서, 상기 구성 요소들로 이루어진 군에서 선택되는 하나 이상을 포함하는 것을 의미한다.

본원 명세서 전체에서, "A 및/또는 B"의 기재는 "A 또는 B, 또는 A 및 B"를 의미한다.

본원 명세서 전체에서, 어떤 물질 등의 예시는 예시에 불과하며, 해당 물질이 특정 예시에 한정된다는 것을 의미하지 않는다.

본원 명세서 전체에서, '파이섹' 또는 'PiSeq'이란 본원이 청구하는 진양성 및 위양성 변이를 구별하는 장치나 알고리즘의 통칭이다.

본원 명세서 전체에서, '진양성(true-positive) 변이'란 실제 유전체에 존재하는 돌연변이로, 특정 서열위치에 진양성 변이가 존재하는 리드와 존재하지 않는 리드가 공존한다.'위양성(false-positive) 변이'란 실제로는 돌연변이가 아니며 복제 오류에 해당한다. 위양성 변이는 주로 PCR 등 유전자의 복제 과정에서 발생한다. 첫 복제 시 발생하는 경우, 복제 된 모든 리드에 위양성 변이가 존재할 수 있으나, 높은 확률로 첫 복제 이후의 복제 과정에서 발생하게 되며 이 경우 복제 된 여러 리드 중 위양성변이를 지닌 리드와 지니지 않은 리드가 두 공존하게 된다. 이러한 특징 때문에 진양성 변이와 위양성 변이는 서로 구분되어야 하지만 실제로는 그 구분이 쉽지 않은 실정이다.

본원 명세서 전체에서, 'TMB 500 패널'이란 암 관련 유전자 변이 정보들과 tumor mutation burden (TMB)을 확인할 수 있도록 제작된 패널을 의미한다. 암과 관련된 약 540개의 유전자로 구성되어 있으며, target enrichment panel로 target region의 크기는 약 1.6 Mega basepair (Mbp)이다.

본원 명세서 전체에서, '공통배열 추출'이란, 각 포지션 그룹별로 유전자 서열을 비교했을 때, 각 서열에 존재하는 변이를 위양성 또는 진양성 변이로 판별한 뒤 위양성 변이가 제외된 대표 서열을 추출하는 것을 의미한다.

본 발명의 제 1 측면은 유전체의 위양성(False-positive) 변이를 판별하는 장치에 있어서, 유전체 리드(read)를 포지션 그룹(position group) 별로 분류하는 변이 위치 기반 군집부, 상기 포지션 그룹 간 발견되는 변이를 진양성(true-positive) 또는 위양성(false-positive) 변이로 판별하는 판별부를 포함하는 장치를 제공한다.(도 1a 참조)

여기서 본원 발명을 적용할 수 있는 유전체는 gDNA, cfDNA를 포함한다.

상기 변이 위치 기반 군집부는 시퀀싱 과정에서 분절된 유전체를 레퍼런스 서열(reference sequence)에 매핑(mapping)한 후, 리드(read) 중 동일한 시작점 및 끝점을 갖는 리드들을 하나의 포지션 그룹으로 분류할 수 있다. 여기서 '동일한 시작점 및 끝점'이란, 리드의 양 끝단의 한 개 이상의 염기를 포함하는 서열이 리드 간에 동일한 것을 의미한다. 다만, 유전자 서열 상 100% 동일한 서열만을 의미하는 것은 아니며 통상의 기술자가 동일한 수준이라고 간주할 수 있는 서열도 포함하는 것으로 해석되어야 한다. 따라서 같은 포지션 그룹 내 리드들은, 동일한 리드에 대한 PCR 증폭 산물(duplicate)에 해당한다.

도 1b를 참조하여 상기 판별부에 대해 설명한다. 본원의 일 실시예에 따르면, 먼저 같은 포지션 그룹 내 리드들의 변이 위치를 비교한다. 이론적으로 한 포지션 그룹 내 리드들은 동일한 리드의 PCR 증폭 산물이므로 모두 동일한 서열을 가지고 있어야 한다. 여기서 (1) 동일한 포지션 그룹 내에서 특정 서열에 변이(변이 X)가 존재하는 리드와 존재하지 않는 리드가 모두 존재하는 경우, 해당 변이 X는 PCR 증폭 과정에서 발생한 위양성 변이로 간주할 수 있다.

반대로 (2) 동일한 포지션 그룹 내 모든 리드의 특정 서열에 변이가 존재하는 경우(변이 Y), 이는 진양성 또는 위양성 변이 모두에 해당할 수 있다. 이 경우 변이 Y가 속하는 서열을 포함하는 다른 포지션 그룹에서 같은 서열에 대해 비교를 진행한다.

다른 포지션 그룹의 모든 리드의 같은 서열에 변이 Y가 존재하는 경우, 변이 Y는 진양성 변이일 수 있다. 판별부는 적어도 2개의 포지션 그룹의 모든 리드에 변이 Y가 존재할 때 이를 진양성 변이로 판단할 수 있다.

정리하자면,

1) 동일한 포지션 그룹 내에 변이가 존재하는 리드와 존재하지 않는 리드가 모두 있는 경우, 해당 변이는 위양성 변이로 판단할 수 있다.

2) 최소 2개의 포지션 그룹 내 모든 리드의 동일서열에 변이가 존재하는 경우, 해당 변이는 진양성 변이로 판단할 수 있다.

3) 최대 1개의 포지션 그룹 내 모든 리드에 변이가 존재하는 경우, 해당 변이는 위양성 변이로 판단할 수 있다.

이에 따라 일반적인 분자 바코드 방법과 달리 인위적인 바코드 시퀀스가 필요로하지 않으므로, 특수 제작된 어댑터(adapter)를 사용할 필요가 없고 바코드를 추가로 시퀀싱할 필요도 없으므로 시간과 비용을 줄일 수 있다. 또한 바코드 교환의 영향으로부터 자유로울 수 있다.

또 본원에 따른 판별부는 시퀀싱 혹은 PCR 중에 발생한 에러(random error)를 효율적으로 구분하여 제거하고 진양성 변이(true-positive mutation)만을 선별할 수 있으므로, 변이 검출 민감도를 높일 수 있다.

본원의 제1측면은 상기 판별부의 결과를 기반으로 공통배열을 추출하는 추출부를 추가로 포함할 수 있다.

본원의 제1측면은 상기 유전체의 정보를 분석하고 데이터베이스와 연동하는 분석부를 더 포함할 수 있다. 여기서 유전체 정보는 시퀀싱 결과의 QC(Quality Control), Gene & chromosome CNV(Copy Number Variation), SNP(Single Nucleotide polymorphisms), Indel 또는 Hotspot Mutation의 결과를 포함할 수 있다. 상기 분석부는 상기 군집부 및 판별부를 통해 판별된 변이에 대해 데이터베이스를 활용해 임상적 의의(주석, annotation)을 부여하는 단계를 포함할 수 있다. 상기 데이터베이스는 OncoKB, Mycancer genome 또는 OMIM database을 포함할 수 있다.

본원의 제2측면은 유전체의 위양성(false-positive) 변이를 판별하는 방법에 있어서, 유전체 리드(read)를 포지션 그룹(position group) 별로 분류하는 단계 및 상기 포지션 그룹 간 공통배열을 추출하고 각 공통배열마다 발견되는 변이를 진양성(true-positive) 또는 위양성(false-positive) 변이로 판별하는 단계를 포함하는 방법을 제공한다.

제 2측면은 제1측면의 장치에 적용되는 방법에 관한 것으로, 제1측면에서 제2측면에 중복되는 기재는 생략하였으며, 각 측면에 공통되는 내용은 모두 공히 적용된다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수도 있다. 본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위, 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.

이하, 첨부된 도면을 참조하여 본원의 구현예 및 실시예를 상세히 설명한다. 그러나, 본원이 이러한 구현예 및 실시예와 도면에 제한되지 않을 수 있다.

실시예 1. 돌연변이 유전형 예측 방법

일 실시예로서 본원에 따른 장치 또는 방법을 활용하여 돌연변이 유전형을 예측하는 방법을 설명한다.(도 1c 참조)

(1) FASTQ 파일 생성, 표준서열 매핑, BAM 파일 생성(PiSeq 전처리)

Paired-end sequence raw read는 정리하고 필터링 하여 양질(Phred Q score>30)의 선명한 리드를 도출할 수 있다. Burrows-Wheeler Alignment(BWA 0.5.9), Genome Analysis Toolkit(GATK), Samtools을 이용하여 도출된 paired-end sequencing 리드를 인간의 reference genome hg19에 정렬할 수 있다.

(2) 변이 위치 기반 군집화, 변이 검출과 필터링, 공통배열 추출

전처리를 진행한 리드에 대해 PiSeq 알고리즘을 적용하고 변이를 검출 및 진양성 변이와 위양성 변이를 필터링할 수 있다. 해당 과정은 상기 제1측면 및 제2측면에 대해 설명한 과정과 동일하다.

PiSeq을 적용하면 NGS 검사에서 발견되는 시퀀싱 에러(위양성 변이)와 진양성 변이를 효율적으로 구별할 수 있다.(도 1d 및 도 1e 참조)

(3) 결과 분석(주석 부여)

(1) 및 (2) 과정을 통해 얻은 리드에 대해 단일염기변이(single nucleotide variant, SNV)와 짧은 삽입과 결실(INDEL)을 확인할 수 있다. SNV와 INDEL의 분석은 dbSNP135, dbNSFP COSMIC, 1000 Genomes variants databases 그리고 소프트웨어 프로그램으로 SNPEff, SIFT, PolyPhen2, LRT, PhyloP, Mutation_Taster, Mutation_Assessor, FATHMM, GERP_NR을 이용할 수 있다. 이들 변이는 Interactive Genomic Viewer 프로그램과 NextGENe v2.3.1.(Soft genetics, Inc.)에서 시각화하여 확인할 수 있다.

이와 같이 본 발명은 위와 같이 위양성 변이를 판단할 수 있는 것 외에도 PiSeq 알고리즘을 통해 얻은 결과에 대해 QC, Gene & chromosome CNV, SNP, Indel, Hotspot Mutation 의 데이터를 일련의 자동화된 시스템을 통하여 한번에 분석할 수 있으며, 외부 데이터 OncoKB, Mycancer genome, OMIM database와 연동되어 변이의 정보, 관련질병, 치료제 등에 대한 자세한 결과 분석이 가능하다.

실시예 2. 기술평가 실험

본원에 따른 장치 또는 방법의 결과가 유의미한지 확인하기 위해, 돌연변이 비율(AF; Allele frequency)이 알려진 표준물질(이하, 표준물질)을 이용하여 결과를 검증하였다.

표준물질로 알려진 Seraseq^TM ctDNA Mutation Mix v2 AF (Seracare 사) 샘플을 이용하여 NGS library preparation (End-repair ~ PrePCR)을 진행하였으며, 540개의 유전자 패널(ctDNA 패널인 TMB 500 패널)을 이용하여 타겟 선별과정(target enrichment)을 진행했다.

DNA 입력값(Input DNA)은 30ng/35uL이며, PrePCR 은 10 cycle을 진행했다. PrePCR이 끝난 8개 샘플을 1개의 풀(pool)로 총 1,500ng으로 맞추어 합쳐(pooling) 타겟 선별과정(target enrichment)을 진행하였으며, postPCR은 12 cycle을 진행했다.

NovaSeq에 최종농도 450pM로 시퀀싱을 진행한 후 결과 데이터(raw data)를 본원에 따른 장치 또는 방법에 적용했다.

다른 실험자(AF 당 3회, 실험자 2명)가 같은 표준물질에 대해 반복실험을 진행했다.(도 2a 참조) 반복실험 조건은 이하 실시예 3 내지 실시예 5에서 사용되는 표준물질에 동일하게 적용된다.

먼저 프로빗 회귀분석(Probit regression)을 사용하여 표준물질의 LoD (Limit of Detection; 95%의 sensitivity를 보이는 지점의 AF)를 추정했다. AF 0.25%에서 95%의 sensitivity를 보였으므로 LOD는 AF 0.25%로 추정하였다.(도 2b 참조)

AMP(Association for Molecular Pathology) 및 CAP(College of American Pathologists)에서 권장하는 NGS 기반 종양학 패널의 검증 가이드라인에 따라 총 92개의 테스트가 6개의 배치로 수행되었다. 1 - 3 배치는 각 배치당 6개의 AF (0%, 0.125%, 0.25%, 0.5%, 1%, 2%)에서 2반복 테스트를 진행하였으며, 4 - 6 배치는 4개의 AF (0%, 0.125%, 0.25%, 0.5%) 예상 검출 한계 (LoD) 주변에서 각 배치당 6회 및 2반복 테스트를 진행했다.

반복 테스트 결과 AF 2%와 1%에서 99.6%로, AF 0.5%에서 96.6%, AF 0.25%에서 85.7%로, Wildtype (AF 0%)에서 100%로 변이를 검출할 수 있었다.(도 2c 참조)

정밀도와 관련하여, 각 AF(0.5%, 0.25% 및 0.125%)당 6회 반복하여 측정한 변이 대립유전자 빈도 (VAF; Variant allele frequency)의 분산 계수 (CV;coefficient of variation)를 계산하여 추정했을 때, 그 결과는 각각 20.81%, 24.87%, 29.48% 이었다.

반복실험 간 재현성의 변동계수(CV; coefficient of variation)는 각 AF 샘플에서 각각 14.17%, 14.38%, 19.83%를 보였다.(도 2d, 도 2e 및 도 2f 참조) 추정된 VAF는 Single Nucleotide Variants (SNVs), Insertions/Deletions (Indels) 및 모든 변이에 대해 각각 0.882, 0.864, 0.871의 r-square 값으로, 표준물질의 AF와 양의 상관관계를 보였다.

따라서 본원에 따른 장치 또는 방법은 위양성 돌연변이를 효과적으로 구분하므로 정확한 AF 예측이 가능함을 확인했다.

실시예 3. 실제 임상 샘플에 대한 PiSeq 알고리즘 검증 실험

본원에 따른 장치 또는 알고리즘이 실제로도 돌연변이 검출에 효과가 있는 지를 확인하기 위해 실제 임상샘플에 대한 검증 실험을 진행했다. 임상 검증을 위해 위암, 췌담도암 및 기타 진행성 암 환자 50명의 샘플을 이용했다. (Gastric cancer 34명, Pancreato-biliary cancer 12명, hepatocellular carcinoma 1명, Neuroendocrine tumor 1명, Colon Cancer 1명, Ovarian cancer 1명)

이 중 24명의 환자는 초기 진단 시 혈액 (혈장) 샘플을 수집하고 그 외 26명의 환자는 치료 중 혈액 (혈장) 샘플을 채취했다. 50명의 환자 중 33명의 환자에서는 조직검체 또한 같이 수집했다.

샘플을 이용하여 NGS library preparation (End-repair ~ PrePCR)을 진행하였으며, 540개의 유전자 패널을 이용하여 타겟 선별과정(target enrichment)을 진행했다.

그 결과 50명의 환자 중 43명 (86%)에서 발암성 또는 tier 1 및 2 돌연변이(tier 1 & 2 mutation)가 검출되었으며, TP53 유전자에서 가장 많은 돌연변이가 검출되었다.(도 3a 참조)

조직 검체가 있는 33명 환자의 분석 데이터에서, target panel에 포함된 139개의 변이 중 67개 (48.2%)의 변이가 혈액(혈장) 및 조직 모두에서 검출되었고, 72개 (51.8%) 변이는 혈액(혈장)에서만, 17개 (12.2%) 변이는 조직에서만 검출되었다.(도 3b 참조)

조직과 혈액을 동일 시점에 채취한 19명의 환자 샘플에서 39개 (60.0%)의 변이는 혈액(혈장) 및 조직 모두에서 검출되었고, 26개 (40.0%) 변이는 혈액 (혈장)에서만 검출되었다. 조직에서만 검출된 변이는 없었다.(도 3c 참조)

Tumor Mutation Burden (TMB)가 매우 높은 경우에는 VAF가 낮은 tier 3 변이와 여러가지 tier 1, 2 변이들이 포함되어 있으며, 이는 특정 돌연변이가 지배적이 아닌, 다양한 돌연변이를 갖는 클론으로 구성됨을 시사한다.

혈액 (혈장)에서만 검출된 변이는 다양하나, 높은 VAF (0.2 - 66.2%)를 갖는 유전자는 TP53, BCORL1, ATR, KRAS, CTNNB1 등이 있으며, 이는 혈액 (혈장)이 종양 이질성을 반영할 수 있음을 시사한다.(도 3d 참조)

따라서 본원에 따른 장치 또는 방법은 위양성 변이를 효과적으로 구분할 수 있으므로 실제 돌연변이에 대한 정확한 검출도 가능함을 확인했다.

실시예 4. 시퀀싱 QC(Quality control) 결과

표준물질(Technical validation), 암환자 샘플(Cancer patients), 정상인 샘플(Healthy controls)를 본원에 따른 장치 또는 방법에 적용한 후 품질관리(QC; quality control)를 진행했다.

도 4에서 'Duplicates' NGS raw data 전체 중 PCR에 의해 증폭된 산물로 추정되는 비율을, 'Average depth'는 염기품질(Base quality) 및 매핑품질(mapping quality)이 낮은 데이터는 제외하고 남은 특정 영역의 리드 수의 평균을, 'On-target'은 데이터 중 타겟 영역에 포함된 비율을, '% Covered'는 타겟 영역에 Nx(예시로, 100x는 100배를 의미함)만큼 'Average depth'가 포함된 영역의 비율을 의미한다.

표준물질 그룹은 Seraseq^TM ctDNA Mutation Mix v2 AF AF (0%, 0.125%, 0.25%, 0.5%, 1%, 2%, Seracare) 샘플을 이용했다.

암환자 샘플 그룹은 위암, 췌담도암 및 기타 진행성 암 환자 50명의 샘플을 이용했다.(Gastric cancer 34명, Pancreato-biliary cancer 12명, hepatocellular carcinoma 1명, Neuroendocrine tumor 1명, Colon Cancer 1명, Ovarian cancer 1명)

정상인 샘플 그룹은 암 진단을 받지 않은 11명의 샘플을 이용했다.

도 4를 참조하면, 표준물질 그룹과 암환자 샘플 그룹의 QC 데이터 수치는 유사하나, 정상인 샘플 그룹에서 결과값이 상이한한 것을 알 수 있다. 이는 모집단 수(N)가 낮아 편차가 크게 보이기 때문이다.

따라서 본원에 따른 장치 또는 방법은 위양성 변이를 효과적으로 구분할 수 있고, 이에 따라 정확한 NGS QC 정보를 제공할 수 있게 된다.

실시예 5. CNVs 분석

세포주 샘플(cell-line)을 TMB 500 패널을 통해 시퀀싱한 후 본원에 따른 장치 또는 방법을 통해 유전자 CNVs(copy number variants)를 분석했다.

EGFR, ERBB2, MET, FGFR2의 copy number variants (CNVs)를 갖는 표준 세포주 (Cell-line)를CNV 변이가 없는 샘플(normal sample) 에 희석하여 (100%, 25%, 10%, 5%, 2.5%, 0.5%) 사용하였다.(도 5a 참조)

테스트 진행한 유전자의 각 copy number는 31, 28, 12, 23이다.

샘플을 이용하여 NGS library preparation (End-repair ~ PrePCR)을 진행하였으며, 540개의 유전자 패널(TMB 500 패널)을 이용하여 타겟 선별과정(target enrichment)을 진행했다.

2.5%의 종양비율(tumor cell fraction)까지 EGFR, ERBB2, FGFR2의 CNVs를 검출하였다.

종양 세포의 비율이 낮아질수록 검출률은 감소하였다. 도 5b 내지 도 5e를 참조하면, 종양 세포에서 특정 유전자의 복제수 변이(copy cumber)가 높은 경우 특정 영역의 coverage가 매우 높아지고(도 5b 및 도 5c 참조), 낮은 경우 특정 영역의 coverage가 약간 높아졌음을 확인했다.(도 5d 및 도 5e 참조)

도 5f 및 도 5g는 염색체 수준의 CNVs를 보여주는 도면으로, 도면 내 그래프는 정규화된 수치로 Log2ratio가 0에 수렴하는 경우 정상, 0이 아닌 경우 해당 영역에 CNV가 존재함을 의미한다.

위와 별도로 TCGA(The Cancer Genome Atlas) 데이터베이스의 데이터 및 Piseq을 이용하여 WES(Whole exome sequencing)와 TMB 500 패널을 통해 염색체 수준의 CNVs를 분석했다.(도 5h 내지 도 5m 참조) 사용된 데이터의 암종은 유방암(BRCA; breast cancer), 위암(STAD; stomach cancer), 폐암(LUSC; lung cancer), 장암(COAD; colorectal cancer), 간암과 간내담관암(LIHC; liver cnacer and intrahepatic bile duct cancer), 그리고 난소암(OV; ovarian cancer)이다. 분석 결과 대부분의 암 유형에서 WES가 추정한 TMB 값과, TMB 500 패널이 추정한 TMB값 사이에 우수한 양의 상관관계를 보였다.

ctDNA를 사용한 TMB 추정은 종양 이질성이 높은 예외적인 경우와 함께 쌍을 이루는 조직을 사용한 추정과 상관관계가 높으므로, TMB 500 ctDNA 패널과 본원에 따른 장치 또는 방법을 사용하면 약물성 돌연변이를 검출하고 TMB 값을 추정하기 위한 임상 샘플에서 실현 가능함을 확인하였다. 따라서 본원에 따른 장치 또는 방법은 시퀀싱에 있어 변이를 효과적으로 구분하여, 시퀀싱 이후의 정확한 결과 분석에 기여할 수 있다.

Claims

유전체의 위양성(false-positive) 변이를 판별하는 장치에 있어서,

유전체 리드(read)를 포지션 그룹(position group) 별로 분류하는 변이 위치 기반 군집부; 및

상기 포지션 그룹마다 발견되는 변이를 진양성(true-positive) 또는 위양성(false-positive) 변이로 판별하는 판별부를 포함하는, 장치.
제1항에 있어서,

상기 유전체는 gDNA 또는 cfDNA인 것인, 장치.
제1항에 있어서,

상기 포지션 그룹으로 분류하는 기준은 레퍼런스 서열에 매핑된 리드 중 동일한 시작점 및 끝점을 갖는 리드인 것인, 장치.
제1항에 있어서,

상기 진양성 변이로 판별하는 기준은 최소 2개의 상기 포지션 그룹 내 모든 리드의 동일서열에 존재하는 변이인 것인, 장치.
제1항에 있어서,

상기 위양성 변이로 판별하는 기준은, 최소 1개의 상기 포지션 그룹 내 일부 리드에 존재하는 변이 또는 최대 1개의 상기 포지션 그룹 내 모든 리드에 존재하는 변이인 것인, 장치.
제1항에 있어서,

상기 판별부의 결과를 기반으로 공통배열을 추출하는 추출부를 추가로 포함하는, 장치.
제1항에 있어서,

상기 유전체의 정보를 분석하고 데이터베이스와 연동하는 분석부를 추가로 포함하는, 장치.
제7항에 있어서,

상기 유전체의 정보는 Sequencing의 결과의 QC, Gene & chromosome CNV, SNP, Indel 또는 Hotspot Mutation의 결과를 포함하는 것인, 장치.
제7항에 있어서,

상기 데이터베이스는 OncoKB, Mycancer genome 또는 OMIM database을 포함하는 것인, 장치.
유전체의 위양성(false-positive) 변이를 판별하는 방법에 있어서,

유전체 리드(read)를 포지션 그룹(position group) 별로 분류하는 단계; 및

상기 포지션 그룹 간 발견되는 변이를 진양성(true-positive) 또는 위양성(false-positive) 변이로 판별하는 단계를 포함하는, 방법.
제10항에 있어서,

상기 유전체는 gDNA 또는 cfDNA인 것인, 방법.
제10항에 있어서,

상기 포지션 그룹으로 분류하는 기준은 레퍼런스 서열에 매핑된 리드 중 동일한 시작점 및 끝점을 갖는 리드인 것인, 방법.
제10항에 있어서,

상기 진양성 변이로 판별하는 기준은 최소 2개의 상기 포지션 그룹 내 모든 리드의 동일서열에 존재하는 변이인 것인, 방법.
제10항에 있어서,

상기 위양성 변이로 판별하는 기준은, 최소 1개의 상기 포지션 그룹 내 일부 리드에 존재하는 변이 또는 최대 1개의 상기 포지션 그룹 내 모든 리드에 존재하는 변이인 것인, 방법.
제10항에 있어서,

상기 판별하는 단계의 결과를 기반으로 공통배열을 추출하는 단계를 추가로 포함하는, 방법.
제10항에 있어서,

상기 유전체의 정보를 분석하고 데이터베이스와 연동하는 단계를 추가로 포함하는, 방법.
제16항에 있어서,

상기 유전체 정보는 Sequencing의 결과의 QC, Gene & chromosome CNV, SNP, Indel 또는 Hotspot Mutation의 결과를 포함하는 것인, 방법.
제16항에 있어서,

상기 데이터베이스는 OncoKB, Mycancer genome 또는 OMIM database을 포함하는 것인, 방법.