KR102491322B1

KR102491322B1 - 암 진단을 위한 다중 분석 예측 모델의 제조 방법

Info

Publication number: KR102491322B1
Application number: KR1020220038857A
Authority: KR
Inventors: 정성문; 이욱재; 김수연; 김황필; 문성태; 김태유
Original assignee: 주식회사 아이엠비디엑스
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2023-01-27
Also published as: EP4282984A1; WO2023191197A1; CN117413071A

Abstract

본 발명은 암 진단을 위한 다중 분석 예측 모델의 제조 방법 및 이를 이용하여 암 진단을 위한 정보를 제공하는 방법에 관한 것이다. 본 발명의 일 구체예에 따른 암 진단을 위한 다중 분석 예측 모델의 제조 방법 및 상기 예측 모델을 이용한 암 진단을 위한 정보를 제공하는 방법에 의하면, 정확하고 민감도 높은 암 진단이 가능하며, 조기에 암을 진단할 수 있다는 장점을 갖는다.

Description

암 진단을 위한 다중 분석 예측 모델의 제조 방법{Preparation Method Using Multi-Feature Prediction Model for Cancer Diagnosis}

본 발명은 암 진단을 위한 다중 분석 예측 모델의 제조 방법 및 이를 이용하여 암 진단을 위한 정보를 제공하는 방법에 관한 것이다.

최근 암의 발견을 위해 혈액속에 존재하는 세포 유리 DNA (cell-free DNA, cfDNA) 또는 순환 종양 DNA(circulating tumor DNA, ctDNA)를 활용하고 있다. 건강한 사람들의 경우 조혈 세포 (haematopoietic cell)로부터 방출된 DNA가 대부분이나, 암 환자의 경우 cfDNA에는 암세포 사멸로 파괴된 세포로부터 혈액으로 방출된 ctDNA가 포함되어 있다. 이 ctDNA는 암과 관련된 유전적 변이를 포함하고 있으며, 이러한 유전적 변이의 모니터링을 통해, 병변 발생 전 암의 조기 발견, 특정 암치료법에 대한 반응 분석, 항암제에 대한 저항성 생성 기전 발견, 잔존 암의 존재 등의 확인이 가능하다.

한편, 전장 유전체 DNA 메틸화 맵핑은 ctDNA를 정상 순환 세포 유리 DNA와 구분하기 위해 사용될 수 있는 다수의 후성적 변화를 이용한다. 예를 들어, 일부 종양 유형, 예를 들어, 뇌질피복 세포증은 임의의 상당한 재발성 체세포 돌연변이 없이 광범위한 DNA 메틸화 비정상을 가질 수 있다.

최근 cfDNA를 이용하여 CancerSEEK, PanSeer, GRAIL MCED test와 같은 다양한 암 진단 기술들이 개발되고 있는데, 이들은 주로 타겟 시퀀싱을 이용하여 특정 영역에서의 메틸화 패턴만을 이용하여 진단하기 때문에, 한정된 숫자의 마커만을 사용하게 되는 한계점이 있어 민감도와 정확도가 높은 암 진단을 위한 예측 모델이 필요한 실정이다.

이에, 본 발명에서는 메틸화 패턴 비율, 복제수 비율, 절편 크기 비율 등 다양한 특성을 적용하여 추출된 데이터 단독 또는 앙상블하여 기계학습을 통해 제조한 암 진단 분석 예측 모델을 제시하고자 한다.

US 16/384784 KR 10-2020-7004066

본 발명의 일 양상은 a) 인간 레퍼런스 게놈의 CpG 부위 정보로부터 암 진단 예측에 필요한 영역을 선별하는 단계; b) 2 이상의 액체 생검 시료에서 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 수득하는 단계; c) 수득한 cfDNA의 전장 유전체 메틸화 시퀀싱 정보 중 상기 선별된 영역에 대하여 메틸화 패턴 비율(methylation pattern fraction) 특성(feature)을 적용하고, 복제수 비율(copy number ratio) 및 절편 크기 비율(fragment size ratio)로 이루어지는 군으로부터 선택되는 하나 이상의 특성을 추가로 적용하여 데이터를 추출하는 단계; 및 d) 추출된 하나 이상의 특성 데이터를 기계학습(machine learning)을 통해 암 진단 예측 모델을 생성하는 단계를 포함하는 암 진단을 위한 다중 분석 예측 모델의 제조 방법을 제공하는 것을 목적으로 한다.

본 발명의 다른 양상은 a) 대상 환자의 액체 생검 시료로부터 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 수득하는 단계; b) 암 진단을 위한 다중 분석 예측 모델에 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 적용하여 암의 유무 및/또는 암 유래 조직을 검출하는 단계를 포함하는 암 진단을 위한 정보를 제공하는 방법을 제공하는 것을 목적으로 한다.

본 발명의 일 양상은 a) 인간 레퍼런스 게놈의 CpG 부위 정보로부터 암 진단 예측에 필요한 영역을 선별하는 단계; b) 2 이상의 액체 생검 시료에서 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 수득하는 단계; c) 상기 b) 단계에서 수득한 cfDNA의 전장 유전체 메틸화 시퀀싱 정보 중 상기 a) 단계에서 선별된 영역에 대하여 메틸화 패턴 비율 특성을 적용하고, 복제수 비율 및 절편 크기 비율로 이루어지는 군으로부터 선택되는 하나 이상의 특성을 추가로 적용하여 데이터를 추출하는 단계; 및 d) 상기 c) 단계에서 추출된 하나 이상의 특성 데이터를 기계학습을 통해 암 진단 예측 모델을 생성하는 단계를 포함하는 암 진단을 위한 다중 분석 예측 모델의 제조 방법을 제공한다.

암 환자의 혈액에서는 원발암 유래의 종양 핵산(circulating tumor DNA, ctDNA)과 세포유리 핵산(cell-free DNA, cfDNA)이 함께 순환하고 있는데, 특히, 상기 핵산의 양은 암환자에서 정상 대조군보다 많고, 항암치료 전후로 차이가 있으며, 치료 후 암이 재발하는 경우에는 ctDNA의 양이 증가하는 것으로 알려져 있다. 본 발명자들은 cfDNA를 이용한 암 진단 기술을 연구하는 과정에서, 기존의 타겟 시퀀싱을 이용한 특정 영역의 메틸화 패턴을 이용하여 진단하는 방법의 한계를 극복하기 위해 예의 노력한 결과, 메틸화 패턴 비율, 복제수 비율, 절편 크기 비율 등 다양한 특성을 적용하여 추출된 데이터를 기계학습을 통해 민감도와 정확도가 높은 암 진단 분석 예측 모델을 제조하고 이를 통해 효과적으로 암 진단이 가능함을 검증하여 본 발명을 완성하였다.

이하, 본 발명에 따른 암 진단을 위한 다중 분석 예측 모델의 제조 방법을 상세히 설명한다.

먼저, 본 발명의 방법은 a) 인간 레퍼런스 게놈의 CpG 부위 정보로부터 암 진단 예측에 필요한 영역을 선별하는 단계를 수행한다.

포유동물 세포의 게놈 DNA에는 A, C, G 및 T 이외에, 사이토신 링의 다섯번째 탄소에 메틸 그룹이 부착된 5-메틸사이토신(5-methylcytosine, 5-mC)이라는 5번째 염기가 존재한다. 5-메틸사이토신의 메틸화는 CpG 부위라고 불리는 CG 디뉴클레오티드(5'-CG-3')의 C에서만 일어나며, 상기 CpG 부위에서 5-mC는 자연적으로 탈아미노화하여 티민(T)이 되기 쉽기 때문에, CpG 부위는 포유동물 세포에서 대부분의 후생유전학적 변화가 자주 일어난다. 상기 CpG 부위는 게놈에 포함되어 있는 유전자의 프로모터 영역, 인트론, 엑손 영역 등에 존재할 수 있다.

본 발명의 일 구체예에 따르면, 상기 암 진단 예측에 필요한 영역으로 선별하기 위해서는 다음과 같은 조건을 만족하는 것이 바람직하다.

1) 정상인에서 시퀀싱 뎁스가 3 이상인 CpG 부위일 것

2) CpG 부위 사이의 거리가 100 bp 미만이고, 3개 이상의 CpG 부위를 포함하는 영역일 것

3) 1 kb를 초과하는 영역은 분할할 것

4) 성 염색체 영역을 제거할 것; 및

5) 정상인에서 하위 10%를 제외한 90% 이상의 영역별 평균적인 시퀀싱 뎁스가 3을 초과하는 영역일 것.

도 1은 본 발명의 일 구체예에 따른 인간 레퍼런스 게놈의 CpG 정보를 이용하여 암 진단 예측에 필요한 영역을 선별하는 과정을 나타낸 예시이다. 본 예시에서, CpG 정보는 UCSC 게놈 브라우저로부터 다운로드한 GRCh37 버전의 인간 참조 게놈 서열로부터 얻었다. 도 1을 참고하여 암 진단 예측에 필요한 영역을 선별하는 과정을 보면, 인간 게놈에서 전체 CpG 부위의 갯수는 28,245,162개이며, 정상인 데이터에서 관측된 시퀀싱 뎁스의 중앙값이 3 이상인 CpG 부위는 약 66%인 18,654,033개이다. 그 중 CpG 부위 사이의 거리가 100 bp 미만이고, 적어도 3개의 CpG 부위를 포함하는 영역은 2,639,386개이고, 이 중 1kb를 초과하는 영역을 분할하여 2,651,019개의 영역을 선별한다. 이후, 성 염색체 영역을 제거하면 2,527,529개의 영역이 선별되며, 최종적으로 정상인에서 하위 10%의 시퀀싱 뎁스가 3을 초과하는 영역을 선별하면 2,407,105개의 영역이 선별된다.

이후, 본 발명의 방법은 b) 2 이상의 액체 생검 시료에서 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 수득하는 단계를 수행하게 된다.

본 발명의 일 구체예에 따르면, 상기 액체 생검 시료는 정상인 또는 암 환자 유래의 전혈, 혈청, 혈장, 타액, 객담, 뇌척수액 또는 소변과 같은 액체로 이루어진 시료를 포함할 수 있으나, 상기 액체 생검 시료는 혈액인 것이 가장 바람직하다.

본 발명에서, '세포 유리 핵산(cell-free DNA)' 또는 'cfDNA'는 세포의 외부(예를 들어, 체액)에서 발견되는 핵산의 단편을 의미하는 것으로, 상기 체액은 혈액, 뇌척수액, 타액 또는 소변을 포함하지만, 이에 한정하지는 않는다. 상기 cfDNA는 대상으로부터(예를 들어, 대상의 세포로부터) 유래될 수 있거나, 대상 이외의 공급원으로부터(예를 들어, 바이러스 감염으로부터) 유래될 수 있다.

cfDNA의 추출은 당업계에 공지된 방법에 따라 수행될 수 있으며, 추출된 cfDNA는 예를 들어, 당업계에 공지된 메틸화 방법을 통해 DNA 라이브러리를 제작한 다음, 차세대 시퀀싱(Next Generation Sequencing, NGS)을 통하여 전장 유전체 메틸화 시퀀싱 정보를 획득하여 메틸화 여부를 확인할 수 있다. 차세대 염기서열 분석기법의 구체적인 방법은 Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46]에 기재되어 있으며, 상기 문헌은 본 명세서에 참조로서 삽입된다.

본 발명에서, '메틸화(methylation)'는 DNA를 구성하는 염기에 메틸기가 부착되는 것을 의미하며, 바람직하게는, 본 발명에서의 메틸화는 인간 게놈의 CpG 부위의 사이토신에서 일어나는 메틸화 여부를 의미한다. 일반적으로, 메틸화가 일어난 경우 그로 인하여 전사인자의 결합이 방해를 받게 되어 특정 유전자의 발현이 억제되며, 반대로, 비메틸화 또는 저메틸화가 일어나는 경우 특정 유전자의 발현이 증가하게 된다.

다음으로, 본 발명은 c) 상기 b) 단계에서 수득한 cfDNA의 전장 유전체 메틸화 시퀀싱 정보 중 상기 a) 단계에서 선별된 영역에 대하여 메틸화 패턴 비율 특성을 적용하고, 복제수 비율 및 절편 크기 비율로 이루어지는 군으로부터 선택되는 하나 이상의 특성을 추가로 적용하여 데이터를 추출하는 단계를 수행하게 된다.

본 발명의 일 구체예에 따르면, 상기 메틸화 패턴 비율은 a) 단계에서 선별된 영역에 대하여 전체 리드의 CpG 중에서 메틸화된 C의 개수의 비율을 산출하는 것일 수 있다. 본 명세서에서는, 이와 같이 산출되는 메틸화 패턴 비율을 '평균 메틸화 비율(Average Methylation Fraction, AMF)'로 정의한다.

도 2는 평균 메틸화 비율에 대한 데이터를 추출하는 방법의 예시를 나타낸다. 예를 들어, 전체 리드의 CpG 부위가 24개로 가정하면, 이 중 메틸화된 C의 개수에 따라 비율을 산출할 수 있다. 이때, 도 2에서 보는 바와 같이, 메틸화된 C의 개수는 영역 내에 포함되는 시토신에 대해서만 계산을 하게 되며, 하기 수학식 I에 따라 평균 메틸화 비율 값을 추출할 수 있다. 이러한 방법에 의해 추출된 평균 메틸화 비율 값은 0 내지 1 사이의 값을 갖게 된다.

[수학식 I]

상기 식에서,

는 1)로부터 얻어진 i번째 영역,

는

에 속한 j번째 CpG에서의 메틸화된 C의 개수, 메틸화되지 않은 C의 개수를 의미한다.

본 발명의 일 구체예에 따르면, 상기 메틸화 패턴 비율은 a) 단계에서 선별된 영역에 대하여 사전에 정의된 정상인의 메틸화 패턴과 반대되는 메틸화 CpG 비율을 산출할 수 있다. 본 명세서에서는, 이와 같이 산출되는 메틸화 패턴 비율을 '비정상 메틸화 패턴 비율(Abnormal Methylation Pattern Fraction, AMPF)'로 정의한다.

도 3은 비정상 메틸화 패턴 비율에 대한 데이터를 추출하는 방법의 예시를 나타낸다. 도 3의 (a) 내지 (c)에서 보는 바와 같이, 먼저, 각각의 전장 유전체 메틸화 시퀀싱 (Whole Genome Methylation Sequencing, WGMS) 리드 레벨에서 메틸화의 패턴을 구성하고, 시료 레벨에서 빈도를 추출한 다음, 각 영역마다 정상인의 메틸화 패턴을 정의한다. 이후, 정상인과 반대되는 메틸화 패턴(methyl pattern) 수준을 정량화하여, 비정상적인 메틸화 패턴의 비율을 계산하여 값을 추출하게 된다. 예를 들어, Segment1의 정상인 주 패턴(major pattern)이 메틸화이고, 암 환자 Sample1의 메틸화 수준이 0.11이면 Sample1에서 Segment1의 비정상 메틸화 패턴 비율은 0.89이다(도 3 (c)의 박스 표시).

본 발명의 일 구체예에 따르면, 상기 복제수 비율은 전체 게놈을 구간화하여 구간별로 뎁스값을 계산하고, 정상인 cfDNA의 전장 유전체 메틸화 시퀀싱 정보로부터 구간별 뎁스의 중앙값을 레퍼런스값으로 하여, 대상 시료의 구간별 뎁스값을 상기 레퍼런스 값으로 나눈 후 로그값을 산출할 수 있다.

도 4는 복제수 비율에 대한 데이터를 추출하는 방법의 예시를 나타낸다. cfDNA에서, 복제수 변이를 정량하는 것은 매우 어려우나, 전장 유전체 데이터로부터 각 시료 마다 복제수 변이에 대한 정보를 수집할 수 있다. 먼저, 전체 게놈을 구간화(예를 들어, 10 kb 단위)한 다음, 각 구간별로 뎁스(depth)를 계산한다. 이후, 정상인 시료에서 구간별 뎁스의 중앙값을 계산하여 이를 레퍼런스 값으로 한다. 복제수 비율의 계산은 구하고자 하는 시료의 구간별 뎁스값을 정상인 시료에서 계산된 레퍼런스 뎁스값으로 나눈 후 로그를 취하여 복제수 비율을 계산할 수 있다. 도 4의 예시와 같이, 정상인 시료의 구간별 뎁스의 중앙값이 2 카피이고, 대상 시료의 구간별 뎁스값이 2 카피라면, 복제수 비율 값은 0이 된다.

본 발명의 일 구체예에 따르면, 상기 절편 크기 비율은 a) 단계에서 선별된 영역에 대하여 각 영역에 매핑되는 절편(fragment)을 100 bp 내지 150 bp의 제1 절편 및 150 bp 내지 220 bp의 제2 절편으로 분류하고 상기 제1 절편 및 제2 절편의 개수를 로그비로 계산하여 산출할 수 있다.

혈액을 순환하고 있는 cfDNA는 DNA의 절편 크기와 관련한 분자적 특징을 가지고 있다. 특히, cfDNA는 NGS 과정에서 DNA의 절편화 단계가 필요하지 않으므로, cfDNA의 시퀀싱 결과만 이용해도 DNA 절편 크기 분포를 확인할 수 있다. 또한, 절편 크기는 환자의 질환(예를 들어, 암) 또는 상태를 반영하여 그 길이가 짧아지는 현상이 보고되어 있어, 암 진단 예측 모델에 사용될 수 있다. 도 5는 정상인의 cfDNA와 대장암 환자의 cfDNA의 절편 크기 분포를 나타낸다. 도 5에서 보는 바와 같이, 대장암 환자의 cfDNA 절편의 크기는 정상인에 비하여 그 길이가 짧은 절편의 분포가 높음을 확인할 수 있다.

절편 크기 비율에 대한 데이터의 추출은 다음과 같이 할 수 있다. 예를 들어, 선별된 영역에 대하여 전체 절편이 30개이고, 각 영역에 매핑되는 절편 중 제1 절편의 개수가 10개, 제2 절편의 개수가 20개인 경우라면, 절편 크기 비율에 대한 데이터 값은 하기와 같은 계산으로 -1이 될 수 있다.

한편, 상기 복제수 비율 및 절편 크기 비율에 대한 데이터 추출은 인간 게놈의 전체 영역을 분할(binning)하여 추출할 수 있다.

마지막으로, 본 발명의 방법은 d) 상기 c) 단계에서 추출된 데이터를 기계학습을 통해 암 진단 예측 모델을 생성하는 단계를 수행하게 된다.

도 6은 상기 방법에 의해 추출된 데이터에 대해 기계학습으로 암 진단 예측 모델을 생성하는 과정을 나타낸 것이다. 정상인과 암 환자 시료를 훈련(training) 세트와 검증(validation) 세트로 분할하고, 최종 모델의 평가를 미리 검증하기 전에 예측하기 위해, 훈련 세트를 4배수 교차 검증(4-fold Cross-Validation)을 이용하여 기계학습 모델을 생성하였다. 각 특성(메틸화 패턴 비율(AMF, AMPF), 복제수 비율(CNR) 및 절편 크기 비율(Fragmentomics))에 대한 모델은 support vector machine, random forest, glmnet 과 같은 분류 모델(classification model)을 단독으로 사용하거나, 여러 모델을 앙상블(ensemble)하여 구축할 수 있다. 또한, 하나 이상의 특성을 사용하여 2가지 앙상블 모델을 제조할 수 있는데, 본 발명의 일 구체예에 따르면, 상기 암 진단 예측 모델은 암의 유무(IsCancer) 및/또는 암 유래 조직(Tissue-of-Origin)을 검출할 수 있다. 이때, IsCancer 앙상블 모델은 정상인 및 암 환자 시료 모두를 이용하여 제조할 수 있으며, Tissue-of-Origin 모델은 정상인을 제외한 암 환자 시료를 이용하여 제조할 수 있다. 또한, 검증 평가 시에는 IsCancer 모델에서 암으로 판정된 환자에 대해서만 Tissue-of-Origin 모델을 적용할 수 있으며, 훈련 세트와 독립적인 검증 세트를 이용하여 성능 평가를 할 수 있다.

본 발명의 다른 양상은 a) 대상 환자의 액체 생검 시료로부터 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 수득하는 단계; 및 b) 상기 방법을 통해 제조된 암 진단을 위한 다중 분석 예측 모델에 상기 a) 단계의 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 적용하여 암의 유무 및/또는 암 유래 조직을 검출하는 단계를 포함하는 암 진단을 위한 정보를 제공하는 방법을 제공한다.

본 발명에 따른 암 진단을 위한 정보를 제공하는 방법은 전술한 암 진단을 위한 다중 분석 예측 모델에 대상 환자 유래 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 적용하여 암의 유무 및/또는 암 유래 조직을 판단하는 것으로, 분석 기준 및 검증 방법에 대해 전술하였는 바, 명세서의 과도한 복잡성을 방지하기 위해 설명을 생략한다.

본 발명의 일 구체예에 따른 암 진단을 위한 다중 분석 예측 모델의 제조 방법 및 상기 예측 모델을 이용한 암 진단을 위한 정보를 제공하는 방법에 의하면, 정확하고 민감도 높은 암 진단이 가능하며, 조기에 암을 진단할 수 있다는 장점을 갖는다.

도 1은 본 발명의 일 구체예에 따른 인간 레퍼런스 게놈의 CpG 정보를 이용하여 암 진단 예측에 필요한 영역을 선별하는 과정의 예시를 나타낸 도면이다.
도 2는 본 발명의 일 구체예에 따른 평균 메틸화 비율에 대한 데이터를 추출하는 방법의 예시를 나타낸 도면이다.
도 3은 본 발명의 일 구체예에 따른 비정상 메틸화 패턴 비율에 대한 데이터를 추출하는 방법의 예시를 나타낸 도면이다.
도 4는 본 발명의 일 구체예에 따른 복제수 비율에 대한 데이터를 추출하는 방법의 예시를 나타낸 도면이다.
도 5는 정상인의 cfDNA와 대장암 환자의 cfDNA의 절편 크기 분포의 차이를 보여주는 그래프이다.
도 6은 본 발명의 일 구체예에 따라 추출된 데이터에 대해 기계학습으로 암 진단 예측 모델을 생성하는 과정을 나타낸 개략도이다.
도 7은 본 발명의 일 구체예에 따른 암 예측 모델(IsCancer)을 이용하여 각 특성별로 암의 유무를 예측한 결과를 나타낸 데이터이다.
도 8은 본 발명의 일 구체예에 따른 암 예측 모델(IsCancer)을 이용하여 4종의 특성을 앙상블하여 암의 유무를 예측한 결과를 나타낸 데이터이다.
도 9는 본 발명의 일 구체예에 따른 암 예측 모델(Tissue-of-Origin)을 이용하여 각 특성별로 암 유래 조직을 예측한 결과를 나타낸 데이터이다.
도 10은 본 발명의 일 구체예에 따른 암 예측 모델(Tissue-of-Origin)을 이용하여 4종의 특성을 앙상블하여 암 유래 조직을 예측한 결과를 나타낸 데이터이다.

이하 하나 이상의 구체예를 실시예를 통하여 보다 상세하게 설명한다. 그러나, 이들 실시예는 하나 이상의 구체예를 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.

실시예 1. 전장 유전체 메틸화 시퀀싱(whole genome methylation sequencing) 방법

대상 환자의 혈액으로부터 플라즈마(plasma)와 PBMC(Peripheral Blood Mononuclear Cell) 분리하고, cfDNA extraction kit(Promega 사, 미국)을 이용하여, 플라즈마로부터 cfDNA를 추출하였다. 추출된 cfDNA는 TapeStation System(Agilent 사, 미국)를 이용하여 퀄리티를 확인하였다. 1 ng 내지 20 ng의 퀄리티를 확인한 cfDNA를 대상으로, 전장 유전체 메틸화 시퀀싱을 위한 NGS DNA 라이브러리 준비 과정을 진행하였다. 상기 DNA 라이브러리는 End repair, Adaptor ligation, Methyl 영역의 oxidation, DNA denaturation, Cytosine의 Deamination, PCR amplification의 과정을 거쳐 준비하며, 위 라이브러리 제작 과정은 Enzymatic Methyl-seq Kit(New England Biolabs 사, 미국)를 사용하였다. 상기 준비된 DNA 라이브러리는 TapeStation System(Agilent 사, 미국)를 이용하여 퀄리티를 확인하였다. 이후, 생산된 DNA 라이브러리에 대하여 원하는 NGS 데이터 생산량에 따라 각각의 시료를 혼합(예를 들어, A 시료 100G, B 시료 100G, C 시료 50G의 데이터를 생산하기 위해서는 A:B:C = 2:2:1의 비율로 혼합)하고, NGS 데이터의 퀄리티를 위하여 적정량의 PhiX 대조군 라이브러리(Illumina 사, 미국)를 혼합하여 Illumina 사의 Novaseq 장치를 이용하여 NGS를 수행하였다.

실시예 2. 암 진단 예측 모델(IsCancer)을 이용한 암의 유무 예측 결과

3개의 암종 및 정상인의 시료를 대상으로 나이 및 암 기수 정보를 고려하여 훈련 세트와 검증 세트로 나누고, 본 발명의 방법에 따라 제조된 IsCancer 모델을 이용하여 각 특성별로 암의 유무를 예측하였다. 하기 표 1은 훈련 세트 및 독립 검증 세트의 개수를 나타낸다.

cfDNA	정상인	대장암(CRC)	간암(HCC)	유방암(BC)
훈련 세트	47	81	46	60
검증 세트(독립)	42	53	24	28

메틸화 패턴 비율(AMF, AMPF)(도 7의 (a) 및 (b)), 복제수 비율(CNR)(도 7의 (c)) 및 절편 크기 비율(FragRatio)(도 7의 (d))의 특성(feature)에 따라 3종의 암을 예측한 결과, 정상인의 시료와 비교할 때, 암과 비암이 명확하게 구별되었으며, 특이도는 AMF 97.1%, AMPF 95.2%, CNR 97.1%, FragRatio 98.1%이었으며, 민감도는 AMF 92.9%, AMPF 95.2%, CNR 90.5%, FragRatio 92.9%로 확인되어, 높은 특이도와 민감도로 암의 유무를 판별할 수 있음을 확인할 수 있었다.

또한, 상기 4가지 특성에 대하여 앙상블 모델을 제조하여 암의 유무를 예측한 결과, 각각의 특성에 따라 예측한 결과와 비교하여 점수의 변동성이 안정화된 것을 확인하였으며, 민감도는 99.0%, 특이도는 97.6%로 향상됨을 확인할 수 있었다(도 8).

실시예 3. 암 진단 예측 모델(Tissue-of-Origin)을 암 유래 조직의 예측 결과

3종의 암 시료를 대상으로 나이 및 암 기수 정보를 고려하여 훈련 세트와 검증 세트로 나누고, 본 발명의 방법에 따라 제조된 Tissue-of-Origin 모델을 이용하여 각 특성별로 암 유래 조직을 예측하였다. 하기 표 2는 훈련 세트 및 독립 검증 세트의 개수를 나타낸다.

cfDNA	대장암(CRC)	간암(HCC)	유방암(BC)
훈련 세트	81	46	60
검증 세트(독립)	53	24	28

메틸화 패턴 비율(AMF, AMPF)(도 9의 (a) 및 (b)), 복제수 비율(CNR)(도 9의 (c)) 및 절편 크기 비율(FragRatio)(도 9의 (d))의 특성(feature)에 따라 3종의 암유래 조직을 예측한 결과, 높은 정확도로 암 유래 조직 예측이 가능함을 확인할 수 있었다.

또한, 상기 4가지 특성에 대하여 앙상블 모델을 제조하여 암 유래 조직을 예측한 결과, 각각의 특성에 따라 예측한 결과와 비교하여 암종별 정확도는 98.1%까지 향상되었으며, 전체 암을 대상으로 한 정확도도 95.2%까지 향상됨을 확인할 수 있었다(도 10).

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

a) 인간 레퍼런스 게놈의 전체 CpG 부위 (loci) 정보로부터 암 진단 예측에 필요한 영역을 선별하는 단계;
b) 2 이상의 액체 생검 시료에서 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 수득하는 단계;
c) 상기 b) 단계에서 수득한 cfDNA의 전장 유전체 메틸화 시퀀싱 정보 중 상기 a) 단계에서 선별된 영역에 대하여 메틸화 패턴 비율 특성을 적용하고, 복제수 비율 특성 및 절편 크기 비율 특성을 반영한 데이터를 추출하는 단계; 및
d) 상기 c) 단계에서 추출된 특성을 반영한 데이터에 기초하는 암 진단 예측 모델을 생성하는 단계를 포함하고,
상기 a) 단계는 하기 조건을 만족하는 경우 암 진단 예측에 필요한 영역으로 선별하는 것이며:
1) 정상인에서 시퀀싱 뎁스가 3 이상인 CpG 부위일 것
2) CpG 부위 사이의 거리가 100 bp 미만이고, 3개 이상의 CpG 부위를 포함하는 영역일 것
3) 1 kb를 초과하는 영역은 분할할 것
4) 성 염색체 영역을 제거할 것; 및
5) 정상인에서 하위 10%를 제외한 90% 이상의 영역별 평균적인 시퀀싱 뎁스가 3을 초과하는 영역일 것,
상기 절편 크기 비율은 각 영역에 매핑되는 절편(fragment)을 100 bp 내지 150 bp의 제1 절편 및 150 bp 내지 220 bp의 제2 절편으로 분류하고, 상기 제1 절편 및 제2 절편의 개수를 로그비로 계산하여 산출하는 것인 암 진단을 위한 다중 분석 예측 모델의 제조 방법.
삭제
청구항 1에 있어서,
상기 2 이상의 액체 생검 시료는 정상인 유래의 혈액 및 암 환자 유래의 혈액 중 적어도 암 환자 유래의 혈액을 포함하는 것인 방법.
청구항 1에 있어서,
상기 메틸화 패턴 비율은 a) 단계에서 선별된 영역에 대하여 전체 리드의 CpG 중에서 메틸화된 C의 개수의 비율을 산출하는 것인 방법.
청구항 1에 있어서,
상기 메틸화 패턴 비율은 a) 단계에서 선별된 영역에 대하여 사전에 정의된 정상인의 메틸화 패턴과 반대되는 메틸화 CpG 비율을 산출하는 것인 방법.
청구항 1에 있어서,
상기 복제수 비율은 전체 게놈을 구간화하여 구간별로 뎁스값을 계산하고, 정상인 cfDNA의 전장 유전체 메틸화 시퀀싱 정보로부터 구간별 뎁스의 중앙값을 레퍼런스값으로 하여, 대상 시료의 구간별 뎁스값을 상기 레퍼런스 값으로 나눈 후 로그값을 산출하는 것인 방법.
삭제
청구항 1에 있어서,
상기 암 진단 예측 모델은 암의 유무 및/또는 암 유래 조직을 검출하는 것인 방법.
a) 대상 환자의 액체 생검 시료로부터 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 수득하는 단계;
b) 청구항 1의 방법을 통해 제조된 암 진단을 위한 다중 분석 예측 모델에 상기 a) 단계의 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 적용하여 암의 유무 및/또는 암 유래 조직을 검출하는 단계를 포함하는 암 진단을 위한 정보를 제공하는 방법.