WO2023182585A1

WO2023182585A1 - 순환 종양 핵산의 복제수 변이 분석 방법

Info

Publication number: WO2023182585A1
Application number: PCT/KR2022/011528
Authority: WO
Inventors: 김소라; 김수연; 김황필; 문성태; 김태유
Original assignee: 주식회사 아이엠비디엑스
Priority date: 2022-03-21
Filing date: 2022-08-04
Publication date: 2023-09-28
Also published as: KR102491485B1

Abstract

본 발명은 순환 종양 핵산에서 복제수 변이를 분석하는 방법에 관한 것이다. 본 발명의 복제수 변이 분석 방법에 따르면, ctDNA 내에서 복제수 변이 분석에 대한 민감도를 향상시킬 수 있으며, 분석의 정확성과 효율성을 높일 수 있다.

Description

순환 종양 핵산의 복제수 변이 분석 방법

본 발명은 순환 종양 핵산에서 복제수 변이를 분석하는 방법에 관한 것이다.

복제수 변이(copy number variation, CNV)는 유전자의 특정 염기서열의 복제수가 개체마다 차이를 갖는 현상을 의미하는 것으로, 특정 염기 서열의 삽입(insertion), 결실(deletion), 중복(duplication), 전위(inversion) 또는 전좌(translocation) 등으로 발생되는 유전자 구조변이(structural variation)의 한 종류이다. CNV는 특히 암세포 증식과 연관성이 높으며, 각종 질환에 대한 인자로 주목받고 있다.

기존의 복제수 변이를 검출하는 방법으로는 FISH(fluorescence in situ hybridization), aCGH(array comparative genomic hybridization), qPCR(quantitative real time polymerase chain reaction), MLPA(multiplex ligation-dependent probe amplification) 등이 대표적이며, 빠른 시간 내에 대용량의 데이터를 분석할 수 있는 차세대 염기서열 분석 기술(next generation sequencing, NGS) 기반의 검출 기법도 활용되고 있다.

최근에는 암의 발견을 위해 혈액속에 존재하는 세포 유리 DNA (cell-free DNA, cfDNA) 또는 순환 종양 DNA(circulating tumor DNA, ctDNA)를 활용하고 있다. 건강한 사람들의 경우 조혈 세포 (haematopoietic cell)로부터 방출된 DNA가 대부분이나, 암 환자의 경우 cfDNA에는 암세포 사멸로 파괴된 세포로부터 혈액으로 방출된 ctDNA가 포함되어 있다. 이 ctDNA는 암과 관련된 유전적 변이를 포함하고 있으며, 이러한 유전적 변이의 모니터링을 통해, 병변 발생 전 암의 조기 발견, 특정 암치료법에 대한 반응 분석, 항암제에 대한 저항성 생성 기전 발견, 잔존 암의 존재 등의 확인이 가능하다.

그럼에도 불구하고, ctDNA는 맵핑이 어렵거나 시퀀싱 정도의 편차로 인하여 복제수 변이에 대해서는 정확한 분석 결과를 얻기가 어려웠다. 이에, 본 발명에서는 NGS의 정보에 기반하여 ctDNA에서 정확하게 복제수 변이를 분석하는 기법을 제시하고자 한다.

본 발명의 일 양상은 a) 표적 시료에서 후보 복제수 변이를 포함하는 세포 유리 핵산(cfDNA)을 추출하는 단계; b) 상기 후보 복제수 변이를 포함하는 cfDNA의 리드(read) 중 핵산 절편의 길이가 90 내지 150 bp인 리드를 선별하는 단계; c) 상기 선별된 리드로부터 안정 영역(stable region)을 검출하는 단계; 및 d) 상기 검출된 리드의 결과값을 타겟 유전자 영역의 시퀀스 뎁스(sequenced depth) 분포 및 SNP 검출 가능 영역을 적용한 레퍼런스와 비교하는 단계를 포함하는 순환 종양 핵산의 복제수 변이 분석 방법을 제공하는 것을 목적으로 한다.

본 발명의 일 양상은 a) 표적 시료에서 후보 복제수 변이를 포함하는 세포 유리 핵산(cfDNA)을 추출하는 단계; b) 상기 후보 복제수 변이를 포함하는 cfDNA의 리드(read) 중 핵산 절편의 길이가 90 내지 150 bp인 리드를 선별하는 단계; c) 상기 선별된 리드로부터 안정 영역(stable region)을 검출하는 단계; 및 d) 상기 검출된 리드의 결과값을 타겟 유전자 영역의 시퀀스 뎁스(sequenced depth) 분포 및 SNP 검출 가능 영역을 적용한 레퍼런스와 비교하는 단계를 포함하는 순환 종양 핵산의 복제수 변이 분석 방법을 제공한다.

본 발명의 일 구체예로, 상기 안정 영역은 복수 개의 타겟 유전자 영역의 시퀀스 뎁스에 대한 중앙값 절대 편차(median absolute deviation)를 취합하여 특이값을 선별하여 상기 특이값이 사분범위(interquatile range) 값의 1.5배 미만인 경우로 설정되는 것일 수 있다.

본 발명의 일 구체예로 상기 타겟 유전자는 AKT1, BRAF, BRCA1, CCND1, CCND2, CCNE1, CD274, CDK4, CDK6, EGFR, ERBB2, FGFR1, FGFR2, FGFR3, KDR, KIT, KRAS, MAPK1, MDM2, MET, MYC, MYCN, PDGFRA, PIK3CA 및 RAF1로부터 선택되는 하나 이상인 것일 수 있다.

본 발명의 일 구체예로 상기 SNP 검출 가능 영역은 타겟 유전자 당 SNP 변이가 2 내지 5개 검출되는 확률로 선별되는 것일 수 있다.

본 발명의 일 구체예로 상기 비교하는 단계는 레퍼런스에 대해 계산된 확률 분포를 통해 산출된 p-value 컷오프 값과의 비교하여 -log(Depth p-value) 값이 3 이상일 때, 2.3 이상 4 미만의 카피수의 경우 획득(gain), -log(Depth p-value) 값이 5 이상일 때, 4 이상의 카피수를 보이는 경우 증폭(amplification)으로 복제수 변이를 판별하는 단계를 포함하는 것일 수 있다.

본 발명의 복제수 변이 분석 방법에 따르면, ctDNA 내에서 복제수 변이 분석에 대한 민감도를 향상시킬 수 있으며, 분석의 정확성과 효율성을 높일 수 있다.

도 1은 암의 순도에 따른 리드 뎁스와 복제수 변이 시그널의 관계를 나타낸 도면이다.

도 2는 ctDNA 유래 복제수 변이 분석을 위한 레퍼런스를 제작하기 위해 ctDNA 절편 크기의 특성을 이용한 결과를 나타낸 도면이다.

도 3은 ctDNA 유래 복제수 변이 분석을 위한 레퍼런스를 제작하기 위해 다수의 정상인 시료 및 다수의 타겟 유전자 영역에 대한 정규화 뎁스를 취합한 과정을 나타낸 도면이다.

도 4는 ctDNA 유래 복제수 변이 분석을 위한 레퍼런스를 제작하기 위해 SNP 변이를 활용하여 분석의 민감도 및 정확도를 비교한 결과이다.

도 5는 본 발명의 일 구체예에 따른 복제수 변이 판별 방법에 따라 정상 시료 및 임상 시료의 복제수 변이 여부를 확인한 결과이다.

암 환자의 혈액에서는 원발암 유래의 종양 핵산(circulating tumor DNA, ctDNA)과 세포유리 핵산(cell-free DNA, cfDNA)이 함께 순환하고 있는데, 특히, 상기 핵산의 양은 암환자에서 정상 대조군보다 많고, 항암치료 전후로 차이가 있으며, 치료 후 암이 재발하는 경우에는 ctDNA의 양이 증가하는 것으로 알려져 있다. 본 발명자들은 암과 관련이 있는 ctDNA의 복제수 변이 분석을 연구하는 과정에서 분석에 적합한 타겟 유전자 영역의 선별과 cfDNA의 절편 크기 선별을 통한 신호 증폭을 통해 복제수 변이를 효과적으로 분석할 수 있음을 검증하여 본 발명을 완성하였다.

이하, 본 발명에 따른 순환 종양 핵산의 복제수 변이 분석 방법을 상세히 설명한다.

먼저, 본 발명의 방법은 a) 표적 시료에서 후보 복제수 변이를 포함하는 세포 유리 핵산(cfDNA)을 추출하는 단계를 수행한다.

본 명세서에서 사용되는 용어, '복제수 변이(copy number variation, CNV)'는 예상되는 복제수와 비교하여 대상 시료에 존재하는 핵산 서열의 복제수에서의 변이를 의미하는 것으로, 핵산 서열의 삽입, 중복 또는 결실의 결과일 수 있다. 이는 유전자의 표현형에 영향을 미칠 수 있으며, cfDNA에서의 복제수 변이를 분석하여 암의 발생, 예후, 재발 여부 등을 확인할 수 있다.

본 명세서에서 사용되는 용어, '시료(sample)'는 복제수 변이를 분석하기 위하여 타겟 시퀀싱(targeted sequencing)을 하고자 하는 대상을 수득할 수 있는 조직, 세포, 전혈, 혈청, 혈장, 타액, 객담, 뇌척수액 또는 뇨와 같은 시료 등을 포함하나, 이에 제한되지 않으며, 바람직하게는 혈청 또는 혈장일 수 있다.

본 명세서에서 사용되는 용어, '세포 유리 핵산(cell-free DNA)' 또는 'cfDNA'는 세포의 외부(예를 들어, 체액)에서 발견되는 핵산의 단편을 의미하는 것으로, 상기 채액은 혈액, 뇌척수액, 타액 또는 소변을 포함하지만, 이에 한정하지는 않는다. 상기 cfDNA는 대상으로부터(예를 들어, 대상의 세포로부터) 유래될 수 있거나, 대상 이외의 공급원으로부터(예를 들어, 바이러스 감염으로부터) 유래될 수 있다.

cfDNA의 추출은 당업계에 공지된 방법에 따라 수행될 수 있으며, 추출된 cfDNA는 차세대 시퀀싱(Next Generation Sequencing, NGS)을 통해 복수개의 리드(read)를 얻고, 이를 정렬하여 리드 뎁스(read depth)를 획득할 수 있다. 상기 리드 뎁스는 정렬된 리드들의 개수에 대응되는 것일 수 있다. 차세대 염기서열 분석기법의 구체적인 방법은 Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46]에 기재되어 있으며, 상기 문헌은 본 명세서에 참조로서 삽입된다.

이후, 본 발명의 방법은 b) 상기 후보 복제수 변이를 포함하는 cfDNA의 리드(read) 중 핵산 절편의 길이가 90 내지 150 bp인 리드를 선별하는 단계를 수행하게 된다.

cfDNA를 타겟 시퀀싱(targeted sequencing)하는 경우, 암의 순도(tumor purity)에 따른 영향을 많이 받게 되는데, 순도가 1% 내외로 매우 낮은 경우도 존재한다. 이런 경우, 정상 DNA 대비 cfDNA가 매우 소량 존재하게 되어 이로 인한 복제수 변이의 시그널(signal)을 구분하기가 어렵게 된다. 도 1에서와 보는 바와 같이, 암의 순도가 70%인 경우는 타겟 시퀀싱 이후 복제수 변이의 시그널이 높은 반면, 암의 순도가 1%인 경우에는 리드가 높은 뎁스임에도 불구하고 정상 DNA(normal DNA)와 암 DNA(tumor DNA) 내의 복제수 변이의 시그널을 구별하기가 어렵다.

ctDNA 절편은 선행 연구 결과, 그 길이가 상대적으로 짧다고 알려진 바 있다(Peter Peneder et al(2021). Nat Commun., Stephen Cristiano et al(2019). Nature.). 따라서, 본 발명에서는 ctDNA 절편 크기(fragment size)의 특성을 이용하여 cfDNA 내에서 ctDNA의 시그널을 증폭시켜 복제수 변이의 분석에 사용하였다.

구체적으로, 도 2에서와 보는 바와 같이, 정상 시료와 환자 시료의 절편 크기를 비교한 결과, 환자 시료에서 90 내지 150bp 절편의 크기 영역의 비율이 높게 나타남을 확인하였다. 따라서 이와 같이 환자 시료에 분포한 ctDNA 절편 크기의 특성을 이용하여 90 내지 150bp 절편 크기를 갖는 리드를 선별하여 ctDNA의 시그널을 증폭시켜 분석의 민감성을 높이고자 하였다.

이후, 본 발명의 방법은 c) 상기 선별된 리드로부터 안정 영역(stable region)을 검출하는 단계를 수행한다.

타겟 시퀀싱(targeted sequencing)은 높은 뎁스의 시퀀싱으로 GC 서열의 비율과 반복 영역의 존재 여부 등의 영향으로 타겟 영역별로 시퀀싱이 되는 정도의 편차가 큰 것으로 알려져 있다. 그러나, 복제수 변이는 작게는 유전자 단위, 크게는 염색체 전체에 발생하는 변이이므로, 편차가 큰 영역을 제외하여도 복제수 변이 분석에 큰 영향이 없게 된다. 따라서, 이러한 편차가 작은 영역을 안정 영역(stable region)으로 정의하고, 상기 안정 영역에서 복제수 변이를 분석함으로써 분석의 효율성 및 정확성을 높이고자 하였다.

일 구체예에 따르면, 상기 안정 영역은 복수 개의 타겟 유전자 영역, 예를 들어, 다수의 정상인 시료 데이터의 각각의 타겟 유전자 영역의 시퀀스 뎁스에 대한 중앙값 절대 편차(median absolute deviation, MAD)를 구하고, 모든 영역에 대한 중앙값 절대 편차 값을 취합하여 특이값을 선별하는 방법을 통해 불안정 영역을 제거하였다. 특이값 선별을 위한 기준은 사분위수의 특성을 이용하여 IQR*1.5배 이상의 값을 상한 이상치로 분류하는 방법을 적용하여 계산한 값을 이용하였다.

일 구체예에 따르면, 상기 타겟 유전자는 ABL1, AKT1, AKT2, ALK, APC, AR, ARAF, ARID1A, ATM, BARD1, BCR, BRAF, BRCA1, BRCA2, BRIP1, BTK, CBL, CCND1, CCND2, CCNE1, CD274, CDH1, CDK12, CDK4, CDK6, CDKN2A, CEBPA, CHEK1, CHEK2, CSF1R, CTNNB1, DDR2, DPYD, EGFR, ERBB2, ERBB3, ESR1, FANCL, FBXW7, FGFR1, FGFR2, FGFR3, FLT3, GATA3, GNA11, GNAQ, GNAS, HRAS, IDH1, IDH2, IGF1R, JAK2, JAK3, KDM6A, KDR, KEAP1, KIT, KRAS, MAP2K1, MAP2K2, MAPK1, MAPK3, MDM2, MET, MLH1, MPL, MSH2, MSH6, MTOR, MYC, MYCN, NF1, NF2, NFE2L2, NOTCH1, NPM1, NRAS, NTRK1, NTRK2, NTRK3, PALB2, PDCD1LG2, PDGFRA, PDGFRB, PIK3CA, PIK3R1, PMS2, PPP2R1A, PPP2R2A, PTEN, PTPN11, RAD51B, RAD51C, RAD51D, RAD54L, RAF1, RB1, RET, RHEB, RHOA, RIT1, RNF43, ROS1, RUNX1, SETD2, SMAD4, SMO, STAG2, STK11, TCF7L2, TERT, TOP2A, TP53, TSC1, TSC2, U2AF1, UGT1A1 및 VHL로부터 선택되는 하나 이상일 수 있으며, 바람직하게는 임상적 의의가 있거나 약물 치료와의 연관성이 있는 AKT1, BRAF, BRCA1, CCND1, CCND2, CCNE1, CD274, CDK4, CDK6, EGFR, ERBB2, FGFR1, FGFR2, FGFR3, KDR, KIT, KRAS, MAPK1, MDM2, MET, MYC, MYCN, PDGFRA, PIK3CA 및 RAF1로부터 선택되는 하나 이상일 수 있다.

마지막으로, 본 발명의 방법은 d) 상기 검출된 리드의 결과값을 타겟 유전자 영역의 시퀀스 뎁스(sequenced depth) 분포 및 SNP 검출 가능 영역을 적용한 레퍼런스와 비교하는 단계를 수행하게 된다.

상기 c) 단계에서 안정 영역 이외에 복제수 변이 분석의 효율성 및 정확성을 향상시키기 위하여, 추가적으로 타겟 유전자 영역의 시퀀스 뎁스 분포를 레퍼런스에 포함시킬 수 있다. 구체적으로, 정상인 시료의 각각의 타겟 유전자 영역에 대한 정규화 뎁스(normalized depth) 값을 취합하여 유전자 별로 분포를 계산하여 레퍼런스 분포로 사용할 수 있다. 바람직하게는, 상기 레퍼런스 분포는 Gaussian KDE 방법에 의해 수행될 수 있으며, 각 타겟 유전자 영역의 분포에 대한 확률밀도함수 형태의 분포 값을 저장함으로써 레퍼런스로 사용할 수 있다. 도 3은 다수의 정상인 시료 및 다수의 타겟 유전자 영역에 대한 정규화 뎁스 분포를 취합하여 하나의 레퍼런스 분포로 사용하는 과정을 나타내는 방법을 나타낸 것이다.

일 구체예에 따르면, 상기 비교하는 단계는 레퍼런스에 대해 계산된 확률 분포를 통해 산출된 p-value 컷오프 값과의 비교하여 -log(Depth p-value) 값이 3 이상인 경우에 대하여 복제수 값 기준에 따라 획득(gain) 또는 증폭(amplification)으로 판별하는 단계를 포함할 수 있다. 구체적으로, -log(Depth p-value) 값이 3 이상이며, 복제수 변이가 2.3 이상, 4 미만의 카피수의 경우를 획득(gain), -log(Depth p-value) 값이 5 이상이며, 복제수 변이가 4 이상의 카피수를 보이는 경우 증폭(amplification)으로 판별할 수 있다.

또한, 낮은 수준의 복제수 변이는 시퀀싱 과정에서 발생한 편차인지, 실제 타겟 유전자 영역에 존재하는 복제수 변이인지 구분하기 어렵다는 한계가 있기 때문에, 복제수 변이 분석의 민감도 및 정확도 향상을 위해 SNP 검출 가능 영역에 대한 결과값을 추가적으로 적용하여 결과 판단에 이용하였다.

일 구체예에 따르면, 상기 SNP 검출 가능 영역은 타겟 유전자 당 SNP 변이가 2 내지 5개 검출되는 확률로 선별되는 것일 수 있으며, 바람직하게는 타겟 유전자 당 SNP 변이가 2 내지 3개 검출될 수 있는 확률로 영역을 선별할 수 있다. SNP 변이가 검출될 수 있는 상기 타겟 유전자 영역은 인트론, 엑손 부위가 모두 가능하나, 바람직하게는 인트론 부위일 수 있다.

이하 하나 이상의 구체예를 실시예를 통하여 보다 상세하게 설명한다. 그러나, 이들 실시예는 하나 이상의 구체예를 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.

실시예 1-1: 레퍼런스(reference) 제작 준비

암을 보유하지 않은 정상인의 시료로부터 암 분석에 대한 대조군으로 사용하기 위한 레퍼런스를 제작하였다. 구체적으로, 정상인 50명에서 얻은 혈액 샘플로부터 Promega사의 Maxwell 자동화장비(Maxwell®RSC ccfDNA Plasma Kit)를 이용하여 제조사의 프로토콜에 따라 세포 유리 DNA(cfDNA)를 수득하였다. 이후, 상기 수득한 cfDNA로부터 NGS(Next Generation Sequencing)을 수행하였다. Targeted panel sequencing 수행 시 NGS DNA library prep 키트(IMBdx 사)를 사용하였으며, AlphaLiquid® 100 target capture panel(IMBdx 사) 및 Illumina 사의 Novaseq platform을 통해 타겟 유전자의 증폭을 수행하였다.

이후, 인간 레퍼런스에 맵핑된 타겟 유전자의 CDS(coding sequence)에 대한 Bam 파일 포맷 결과를 도출하고, 상기 파일을 기반으로 CNV(copy number variation) 분석을 위한 레퍼런스 제작 작업을 시작하였다. 제작된 Bam 파일을 이용하여 타겟 유전자 하나의 영역 각각에 대한 뎁스(depth)를 계산하여 정상인 시료에서 관찰되는 뎁스 양상을 확인하였다.

실시예 1-2: 절편 크기(fragment size)에 따른 레퍼런스 제작

cfDNA의 절편 크기 특성을 활용하기 위해 임상 시료에서 cfDNA의 비율이 높을 것으로 예상되는 절편 크기를 기준으로 Bam 파일을 분리하여 레퍼런스 제작에 사용하였다. 구체적으로, 상기 실시예 1-1에서 제작된 Bam 파일을 이용하여 90 내지 150 bp를 짧은 크기(short size), 150 내지 200 bp를 긴 크기(long size)로 구분하여 분리하였다. 이후, 짧은 크기 절편의 Bam 파일을 이용하여 실시예 2에서 선별된 안정 영역에 대한 뎁스를 계산한 다음, 최종적으로 임상 시료 분석에 사용할 레퍼런스를 제작하였다. 여기서 사용되는 타겟 유전자 영역은 엑손(exon)에 따라 크기가 상이하기 때문에, CNV 분석에 적합한 약 200bp 정도의 크기로 나누었다. 이는 타겟 유전자 영역에 영향을 미치지 않으며, 단순히 분석에 사용하고자 하는 영역을 적당한 크기로 나누는 과정에 해당한다. 뎁스에 대한 정규화(normalize) 과정을 거쳐 레퍼런스 파일을 만드는 과정 중에 GC content, Repeat Masking 영역에 대한 보정을 진행하였으며, 이는 CNVkit를 사용하여 진행하였다.

실시예 1-3: 안정 영역(stable region)의 선별 방법

먼저, 정상인 시료에 대한 성별을 확인하였다. 타겟 유전자 영역 중 포함되어 있는 'chromosome X' 영역은 성별에 따라 편차가 많이 발생할 수밖에 없는 영역이므로, 뎁스 양상을 이용하여 성별을 유추한 다음, 'chromosome X' 영역에 대해서는 성별을 분리하여 이후 과정에 사용하였다. 성별의 구분은 'chromosome X' 영역의 뎁스가 남자(male)의 경우 절반의 값을 보인다는 점을 이용하여 진행 가능하다.

타겟 유전자 영역들은 각각의 영역들이 가진 서열의 특성에 따라 시퀀싱 데이터를 생산하는 과정에서 편차가 발생할 수 있다. 이에, 서열 특이적인 영향을 많이 받아 편차가 상대적으로 큰 영역을 불안정(unstable), 그렇지 않은 영역을 안정(stable) 영역으로 구분하였다.

안정 영역 선별을 위해 실시예 1-1에서 도출된 정상인 시료 50명 데이터 각 영역의 뎁스에 대한 중앙값 절대 편차(median absolute deviation, MAD)을 구하였다. 이후, 모든 영역에 대한 MAD 값을 취합하여 특이값을 선별하고, 특이값에 해당하는 경우를 불안정(unstable) 영역으로 분류하였다. 상기 특이값은 사분범위(Interquartile Range, IQR) 값을 구하여 IQR의 1.5배 이상의 값을 가지는 경우로 설정하였다. 최종적으로 타겟 유전자 영역 중 불안전 영역으로 분류되는 영역을 제외하고 선별한 안정 영역을 CNV 분석에 사용하였다.

실시예 1-4: 유전자별 분포에 따른 레퍼런스 제작

정상인 시료의 각 유전자 영역에 대한 정규화 뎁스(normalized depth) 값을 취합하여 유전자별 분포를 계산한 다음, 임상 시료 분석에 레퍼런스 분포로 사용하였다. 레퍼런스 분포는 Gaussian KDE 방법을 이용하여 계산하였으며, 각 유전자의 분포에 대한 확률밀도함수 형태의 분포 값을 저장하여 이후 임상 시료 분석 시 레퍼런스로 사용하였다.

실시예 1-5: SNP 변이를 포함하는 레퍼런스 제작

1000개의 Genome common SNP(VAF >= 10%)인 SNP에서 Repeat Masking을 통한 annotation 정보가 repeat인 변이는 제외하여 SNP를 선정하고, 이 중에서 동일한 검출 가능성을 전제로 하여 30개를 최종 선별하여 선별된 SNP 변이를 기준으로 ±40 mer 영역에 대해 베드(bed)를 제작하였다. SNP 영역은 해당 분석의 타겟 패널(target panel)에 프로브 디자인을 하여 분석 결과에 사용될 수 있도록 하였다.

실시예 2: 임상 시료를 통한 복제수 변이 분석

임상 시료는 폐암, 대장암, 위암 그리고 대장암 등을 보유한 150종의 암환자 검체를 선정하였다. 먼저, cfDNA 특이적인 신호를 증폭시키기 위하여, 실시예 1-2의 방법에 따라 ctDNA의 비율이 높을 것으로 예상되는 짧은 크기의 단편을 분리하였다. 이후, 실시예 1-3의 방법으로 선별한 안정 영역에 대하여 레퍼런스와 비교하여 각 영역에 대한 log2 ratio 값을 산출한 다음, 유전자 별로 log2 ratio 값을 취합하여 특이값(outlier)을 제외한 후, 표준(normal) 상태가 2 카피(copy)임을 고려하여 카피수를 산출하였다.

임상 시료에 대한 복제수 변이 분석은 상기 실시예 1-1 내지 1-5에서 제작한 레퍼런스 분포를 이용하여 분석 대상인 임상 시료의 신호가 레퍼런스 분포 상에서 어느 정도에 위치하는지 여부를 확인하여 판단하였다. 최종적으로 레퍼런스에 대해 계산된 확률 분포를 통해 p-value 값을 산출하고, p-value 컷오프 값과의 비교를 통해 복제수 변이 여부를 판단하였다. 복제수 변이 여부 판단에 대한 기준은 정상 샘플에서 보여지는 분포와 임상 시료에서 보여지는 분포의 값을 고려하여 노이즈 수준 이상의 값을 선정하는 방식으로 하였다. 도 5에서 보는 바와 같이, 정상 시료에서는 -log(Depth p-value) 값이 2 미만의 수준에 분포하였음을 확인할 수 있고, 이와 유사하게 임상 시료에서도 -log(Depth p-value) 값이 2 미만의 수준에서 복제수 변이가 존재하지 않는 경우가 분포되어 있음을 확인할 수 있었다. 즉, 임상 시료의 복제수 변이 판별 기준 적용 시 유의미한 뎁스(depth) 변화가 존재하는 경우를 적절하게 선별해낼 수 있음을 확인할 수 있었다.

이후 추가적으로 SNP 분석 방법을 적용하여 분석 결과의 정확도를 높일 수 있도록 하였다. SNP 분석은 SNP 디자인 영역에서 검출된 데이터를 이용하여 뎁스를 이용한 복제수 변이와 비교 및 검증하는 방식으로 진행하였다. 구체적으로, SNP 분석은 검출된 변이 중 헤테로(hetero)인 생식세포(germline)를 선별하여 예측된 복제수를 계산하는 방법으로 진행하였다. 복제수 계산은 50% 미만의 값을 보이는 경우 '1/관찰된 AF(%)'의 수식을 이용하여 계산하고, 50% 이상의 값을 보이는 경우 '1/(100-관찰된 AF(%))'의 수식을 이용하여 계산하였다. 도 4와 같이 Seracare 물질을 이용하여 본 실시예의 SNP 분석 방법만을 적용한 결과, 정답으로 알려진 복제수 값과 매우 유사한 값이 나타나는 것을 확인할 수 있었다. 이는 뎁스 특성을 이용하여 분석한 복제수 값과, 이와 독립적으로 SNP 특성을 이용하여 분석한 복제수 값을 이용하여 분석 결과를 검증하는 과정을 통해 정확도가 향상될 수 있음을 나타낸다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

a) 표적 시료에서 후보 복제수 변이를 포함하는 세포 유리 핵산(cfDNA)을 추출하는 단계;

b) 상기 후보 복제수 변이를 포함하는 cfDNA의 리드(read) 중 핵산 절편의 길이가 90 내지 150 bp인 리드를 선별하는 단계;

c) 상기 선별된 리드로부터 안정 영역(stable region)을 검출하는 단계; 및

d) 상기 검출된 리드의 결과값을 타겟 유전자 영역의 시퀀스 뎁스(sequenced depth) 분포 및 SNP 검출 가능 영역을 적용한 레퍼런스와 비교하는 단계를 포함하는 순환 종양 핵산의 복제수 변이 분석 방법.
청구항 1에 있어서,

상기 안정 영역은 복수 개의 타겟 유전자 영역의 시퀀스 뎁스에 대한 중앙값 절대 편차(median absolute deviation)를 취합하여 특이값을 선별하여 상기 특이값이 사분범위(interquatile range) 값의 1.5배 미만인 경우로 설정되는 것인 방법.
청구항 1에 있어서,

상기 타겟 유전자는 AKT1, BRAF, BRCA1, CCND1, CCND2, CCNE1, CD274, CDK4, CDK6, EGFR, ERBB2, FGFR1, FGFR2, FGFR3, KDR, KIT, KRAS, MAPK1, MDM2, MET, MYC, MYCN, PDGFRA, PIK3CA 및 RAF1로부터 선택되는 하나 이상인 것인 방법.
청구항 1에 있어서,

상기 SNP 검출 가능 영역은 타겟 유전자 당 SNP 변이가 2 내지 5개 검출되는 확률로 선별되는 것인 방법.
청구항 1에 있어서,

상기 비교하는 단계는 레퍼런스에 대해 계산된 확률 분포를 통해 산출된 p-value 컷오프 값과의 비교하여 -log(Depth p-value) 값이 3 이상일 때, 2.3 이상 4 미만의 카피수의 경우 획득(gain), -log(Depth p-value) 값이 5 이상일 때, 4 이상의 카피수를 보이는 경우 증폭(amplification)으로 복제수 변이를 판별하는 단계를 포함하는 것인 방법.