KR20230133287A

KR20230133287A - 샘플을 임상적으로 관련된 범주로 분류하기 위한 방법

Info

Publication number: KR20230133287A
Application number: KR1020237023531A
Authority: KR
Inventors: 죠지 코움바리스; 아킬리스 아킬레오스; 알렉시아 엘리아데스; 샤랄람보스 로이지데스; 키리아코스 트산가라스; 엘레나 키프리; 마리오스 아이니데스; 필리포스 파트살리스
Original assignee: 메디커버 바이오테크 리미티드
Priority date: 2020-12-18
Filing date: 2021-12-16
Publication date: 2023-09-19
Also published as: MX2023007267A; JP2023554505A; US20240052416A1; EP4263870A1; CA3201862A1; EP4015650A1; CN116806267A; IL303826A; AU2021399915A1; WO2022129360A1

Abstract

본 개시는 생물학적 샘플을 임상적으로 관련된 범주로 분류하기 위한 방법 및 키트를 제공한다. 방법은 (i) 다수의 무세포 DNA(cfDNA) 단편을 포함하는 샘플에서, 참조 서열에 대한 정렬에 의해 적어도 100,000개의 cfDNA 단편의 시작 및/또는 종료의 서열 좌표를 결정하는 단계, 및 (ii) 참조 서열에서, 트리뉴클레오티드, 테트라뉴클레오티드 및 펜타뉴클레오티드로 구성된 모든 핵산 모티프를 결정하는 단계를 포함한다. 상기 뉴클레오티드는: a) 단계 (i)에서 결정된 각각의 시작 및/또는 종료 서열 좌표 안쪽이지만 이에 인접한 1 내지 5개의 염기쌍의 범위 내에서, 및/또는 b) 단계 (i)에서 결정된 각각의 시작 및/또는 종료 서열 좌표에 바깥쪽이지만 이에 인접한 1 내지 5개의 염기쌍의 범위 내에 있다. 이후, 제 3 단계 (iii)에서, a) 샘플에 포함된 다수의 cfDNA 단편에서, 단계 (i)에서 결정된 각각의 서열 좌표 ± 1개의 염기쌍, 및 b) 샘플에 포함된 다수의 cfDNA 단편에서, 단계 (ii) a) 및 단계 (ii) b)에서 결정된 각각의 핵산 모티프의 빈도가 결정된다. 이들 빈도를 사용하여, 해당 기준 빈도에 대한 단계 (iii) a) 및 단계 (iii) b)에서 결정된 각각의 빈도의 비율이 계산된다. 상기한 각각의 비율에 대해 진단 점수가 개별적으로 계산된다. 마지막 단계로서, 결정된 진단 점수 중 적어도 두 개 이상으로부터 합계 진단 점수가 계산된다. 진단 점수와 합계 진단 점수를 사용하여 샘플을 임상적으로 관련된 범주로 분류할 수 있고, 또한 합계 진단 점수를 사용하여 샘플 내의 무세포 및/또는 순환 종양 DNA를 소량, 적당량 및 다량으로 분류할 수 있다.

Description

샘플을 임상적으로 관련된 범주로 분류하기 위한 방법

본 발명은 생물학, 의학 및 화학 분야, 특히 분자 생물학 분야, 특히 분자 진단 분야에 속한다.

진핵 생물의 게놈은 DNA를 압축할 수 있을 뿐만 아니라 DNA 대사(복제, 전사, 수선, 재조합)를 조절할 수도 있는 염색질로 구성되어 있다. 진핵 생물에서 염색질 구조의 특징, 특히 뉴클레오솜 배열은 진핵 생물에 존재하는 복잡한 혼합물에서 희귀 핵산 단편을 식별하는 데 사용될 수 있음이 밝혀졌다(Heitzer E. et al., Nat. Rev. Genet., 2019, 20(2):71-88).

뉴클레오솜에 의한 DNA의 보호는 비-무작위 단편화의 핫스팟(hot spot of non-random fragmentation, HSNRF)의 존재로 인한 것으로 가정되며, 이 HSNRF는 특정 크기 분포의 핵산 단편의 말단이 주변의 게놈 위치와 비교했을 때 예상보다 높은 빈도로 발생하는 것으로 발견되는 게놈의 영역으로 정의된다.

암은 종종 인체의 쉽게 접근할 수 없는 위치에서 발견된다. 암 진단을 위한 "최적 표준"의 침습적 수술 생검은 출혈 및 감염과 같은 중대한 임상적 위험을 안고 있다. 이러한 침습적 수술의 단점 중 하나는 종양 조직에서 채취된 샘플이 수술이 발생한 시점에서의 공간적으로 제한된 표현일 뿐이라는 사실이다. 그러나 암은 정적인 상태에 머무르지 않고 지속적인 변화를 겪으며, 이로 인해 종양 내부에서 그리고 원발성 및 전이성 암 사이에 유전적 이질성이 발생한다. 암 진단, 모니터링 및 치료 지침을 위해 비침습적/최소 침습적 방법을 개발하기 위한 많은 노력이 있었다. 모체 혈장의 무세포 DNA를 이용한 수치 이상(numerical abnormality)에 대한 비침습적 산전 진단검사(prenatal testing)의 성공적인 기술 개발은 암 진단을 위한 바이오마커 발견에도 사용될 수 있다. 혈장 내의 순환 종양 DNA의 발견은, 침습적 수술 절차와 관련된 위험을 해결하지 않고도, 이를 바이오마커로 활용하고 암 치료에 대한 반응의 검출, 예후 및 예측을 위한 액체 생검 검사를 사용할 수 있는 가능성을 제공하였다. 이 기술은 초기 단계에서 암을 검출함으로써 성공적인 회복 가능성을 높이고, 가장 적절한 치료법을 선택하는 데 도움을 주며, 또한 치료 과정 이후에 최소한의 잔여 질환을 검출하는 데 도움을 줌으로써 의료진이 필요한 의료 개입을 결정할 수 있도록 함으로써 암 환자에게 도움이 된다. 합병증의 위험이 있는 현재의 침습적 검사 방법과 달리, 액체 생검은 혈액, 소변 또는 가래와 같은 샘플을 사용하기 때문에 본질적으로 환자에게 안전하다.

지금까지, 혈장에서 발견된 무세포 DNA(cell free DNA, cfDNA)의 총량에 대한 종양-유래 기여도의 추정치를 제공하고자 하는 몇 가지 방법만이 기술되었으며, 상기 무세포 종양 DNA(cell free tumor DNA, cftDNA)는 치료에 대한 반응 및/또는 내성 및 질환 재발의 지표인 예후 바이오마커로서 사용된다(Smith C.G. et al., Genome Med., 2020, 12(1): 23; Peiyong Jiang et al., PNAS, 2018, 115(46): E10925-E10933; Cristiano S. et al. Nature, 2019, 570: 385-389; Mouliere et al., Sci. Transl. Med., 2018, 10(466): eaat4921; Newman A. et al., Nat. Med., 2014, 20(5): 548-554).

현재의 액체 생검 기반 검사는 복잡성뿐만 아니라 제한된 민감도 및 특이성으로 인해 정밀 종양학의 요구를 충족시키지 못하고 있다(De Rubis G. et al., Trends Pharmacol Sci., 2019, 40(3): 172-186; Peiyong Jiang et al., Cancer Discov., 2020, CD-19-0622). 따라서 이러한 방법의 정확도는 충분히 높지 않으며, 잘못된 결과를 초래할 수 있다.

본 발명은 샘플을 임상적으로 관련된 범주로 분류하기 위한 견고하고 감도 높고 특이성 있는 액체 생검 분석법을 확립하기 위해, 순환 종양 DNA(ctDNA) 시퀀싱으로부터 추출 가능한 정보의 범위를 확장하고 새로운 다중파라미터 전략을 구현함으로써 최신 기술의 액체 생검법이 직면한 한계에 대한 해결책을 제공한다.

발명의 개요

본 발명은 다른 액체 생검법에 의해 현재 직면하고 있는 정확도 한계에 대한 해결책을 제공한다. 본 발명은 샘플을 임상적으로 관련된 범주로 분류하기 위한 견고하고 감도 높고 특이성 있는 액체 생검 분석법을 확립하기 위해, 무세포 종양 DNA 또는 ctDNA 시퀀싱으로부터 추출 가능한 정보의 범위를 확장하고 새로운 다중파라미터 전략을 구현함으로써 상기 정확도 한계를 극복한다.

일 실시형태에서, 본 발명은 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법에 관한 것으로, 방법은:

(i) 다수의 무세포 DNA(cfDNA) 단편을 포함하는 샘플에서, 참조 서열에 대한 정렬에 의해 적어도 100,000개의 cfDNA 단편의 시작 및/또는 종료의 서열 좌표를 결정하는 단계와,

a) 단계 (i)에서 결정된 각각의 시작 및/또는 종료 서열 좌표 안쪽이지만 이에 인접한 1 내지 5개의 염기쌍의 범위 내에서, 및/또는

b) 단계 (i)에서 결정된 각각의 시작 및/또는 종료 서열 좌표에 바깥쪽이지만 이에 인접한 1 내지 5개의 염기쌍의 범위 내에서,

(ii) 참조 서열에서, 트리뉴클레오티드, 테트라뉴클레오티드 및 펜타뉴클레오티드로 구성된 모든 핵산 모티프를 결정하는 단계와,

a) 샘플에 포함된 다수의 cfDNA 단편에서, 단계 (i)에서 결정된 각각의 서열 좌표 ± 1개의 염기쌍, 및

b) 샘플에 포함된 다수의 cfDNA 단편에서, 단계 (ii) a) 및 단계 (ii) b)에서 결정된 각각의 핵산 모티프의,

(iii) 빈도를 결정하는 단계와,

(iv) 해당 기준 빈도에 대한 단계 (iii) a) 및 단계 (iii) b)에서 결정된 각각의 빈도의 비율을 계산하는 단계와,

(v) 단계 (iv)에서 결정된 각각의 비율에 대해 개별적으로 진단 점수를 계산하는 단계로서, 상기 점수는 단계 (iv)의 모든 개별 빈도 비율의 각각의 가중합인, 단계와,

(vi) 단계 (v)에서 결정된 진단 점수 중 적어도 두 개 이상으로부터 합계 진단 점수를 계산하는 단계로서, 상기 점수는 단계 (v)에서 결정된 상기 두 개 이상의 진단 점수의 가중합이고, 및

(vii) 합계 진단 점수를 기준 점수와 비교하여 샘플의 분류를 결정하는 단계를 포함하고,

여기서 샘플은, 합계 진단 점수 값이 기준 점수의 적어도 1 표준 편차만큼 기준 점수의 평균보다 높은 경우, 종양 cfDNA를 포함하는 것으로 분류되며, 기준 점수는 하나 이상의 기준 값으로부터 계산된다.

일 실시형태에서, 합계 진단 점수는 상기 방법의 단계 (v)에서 계산된 각각의 비율에 대해 계산된 모든 진단 점수로부터 계산된다.

(i) 다수의 무세포 DNA(cfDNA) 단편을 포함하는 샘플에서, 참조 서열에 대한 정렬에 의해 적어도 100,000개의 cfDNA 단편의 시작 및/또는 종료의 서열 좌표 및 시작 및/또는 종료 ± 1개의 염기쌍의 서열 좌표를 결정하는 단계와,

(ii) 샘플에 포함된 다수의 cfDNA 단편에서, 단계 (i)에서 결정된 각각의 좌표의 빈도를 결정하는 단계와,

(iii) 해당 기준 빈도에 대한 단계 (ii)에서 결정된 각각의 좌표의 빈도의 비율을 계산하는 단계와,

(iv) 단계 (iii)에서 결정된 모든 비율로부터 진단 점수를 계산하는 단계로서, 상기 점수는 단계 (iii)에서 결정된 모든 빈도 비율의 가중합인, 단계, 및

(v) 진단 점수를 기준 점수와 비교하여 샘플의 분류를 결정하는 단계를 포함하고,

여기서 샘플은, 진단 점수 값이 기준 점수의 적어도 1 표준 편차만큼 기준 점수의 평균보다 높은 경우, 종양 cfDNA를 포함하는 것으로 분류되며, 기준 점수는 하나 이상의 기준 값으로부터 계산된다.

(ii) 참조 서열에서, 단계 (i)에서 결정된 각각의 시작 및/또는 종료 서열 좌표 안쪽이지만 이에 인접한 1 내지 5개의 염기쌍의 범위 내에서 트리뉴클레오티드, 테트라뉴클레오티드 및 펜타뉴클레오티드로 구성된 모든 핵산 모티프를 결정하는 단계와,

(iii) 샘플에 포함된 다수의 cfDNA 단편에서, 단계 (ii)에서 결정된 각각의 핵산 모티프의 빈도를 결정하는 단계와,

(iv) 해당 기준 빈도에 대한 단계 (iii)에서 결정된 각각의 빈도의 비율을 계산하는 단계와,

(v) 단계 (iv)에서 결정된 모든 비율로부터 진단 점수를 계산하는 단계로서, 상기 점수는 단계 (iv)에서 결정된 모든 빈도 비율의 가중합인, 단계, 및

(vi) 진단 점수를 기준 점수와 비교하여 샘플의 분류를 결정하는 단계를 포함하고,

또 다른 실시형태에서, 본 발명은 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법에 관한 것으로, 방법은:

일 실시형태에서, 각각의 시작 및/또는 종료 서열 좌표 안쪽이지만 이에 인접한 염기쌍의 범위는 각각의 시작 및/또는 종료 좌표로부터 2 bp 내지 6 bp, 또는 3 bp 내지 7 bp, 또는 4 bp 내지 8 bp, 또는 5 bp 내지 9 bp 또는 6 bp 내지 10 bp일 수 있다.

일 실시형태에서, 분석하고자 하는 샘플 내에 포함된 cfDNA 단편의 최소량은 10만 내지 50만, 50만 내지 100만, 100만 내지 200만, 200만 내지 500만, 또는 500만 내지 1000만, 또는 1000만 내지 2000만, 또는 2000만 내지 5000만, 또는 5000만 내지 5억이다.

일 실시형태에서, 샘플 내의 종양 cfDNA의 양은, 합계 진단 점수가 기준 점수의 2 내지 4 표준 편차인 경우 소량으로, 합계 점수가 기준 점수의 4 내지 6.5 표준 편차인 경우 적당량으로, 그리고 합계 점수가 기준 점수의 6.5 표준 편차 이상인 경우 다량으로 분류될 수 있다.

일 실시형태에서, 참조 샘플은 암이 없는 환자, 또는 비-재발 환자, 또는 성공적으로 치료된 암 환자로부터의 샘플일 수 있다.

일 실시형태에서, 다수의 무세포 DNA(cfDNA) 단편을 포함하는 샘플에서, 참조 서열에 대한 정렬에 의해 적어도 100,000개의 cfDNA 단편의 시작 및/또는 종료의 서열 좌표를 결정하는, 상기한 임의의 방법의 단계 (i)는 참조 서열에 대한 정렬 이전에 샘플 내의 다수의 cfDNA 단편 중 적어도 일부의 핵산 서열을 결정하는 단계를 포함한다.

일 실시형태에서, 다수의 무세포 DNA(cfDNA) 단편을 포함하는 샘플에서, 참조 서열에 대한 정렬에 의해 적어도 100,000개의 cfDNA 단편의 시작 및/또는 종료의 서열 좌표를 결정하는, 상기한 임의의 방법의 단계 (i)는 cfDNA 단편의 핵산 서열을 결정하는 단계 이전에 cfDNA 단편을 농축하는 단계를 더 포함한다.

일 실시형태에서, 샘플은 혈액암, 간암, 폐암, 췌장암, 전립선암, 유방암, 위암, 교모세포종, 대장암, 두경부암, 고형 종양, 양성 종양, 악성 종양, 진행 단계의 암, 전이성 또는 전암성 조직으로 이루어진 군에서 선택되는 종양에서 유래하는 종양 cfDNA를 포함하는 것으로 분류된다.

또 다른 실시형태에서, 본 발명은 키트에 관한 것으로, 키트는:

(i) 임의의 상기한 방법을 수행하기 위한 구성요소로서, 구성요소는:

a) 생물학적 샘플로부터 무세포 DNA를 분리하기 위한 하나 이상의 구성요소와,

b) 시퀀싱 라이브러리를 제작하고 강화하기 위한 하나 이상의 구성요소, 및/또는

c) 강화된 라이브러리를 증폭 및/또는 시퀀싱하기 위한 하나 이상의 구성요소를 포함하는 구성요소와,

(ii) 통계 분석을 수행하기 위한 소프트웨어를 포함한다.

암이 없는 환자의 정상 샘플 20개와 진행성 비소세포폐암(Non-small-cell lung carcinoma, NSCLC) 또는 대장암 진단을 받은 환자의 비정상 샘플 27개를 분석하였다. 10개의 무작위로 선택된 정상 샘플과 10개의 무작위로 선택된 비정상 샘플을 실시예 1 내지 실시예 4에서 알려지지 않은 파라미터를 추정하기 위해 훈련 단계에서 사용하였다.
도 1: 이 도면은 "정상" 샘플(훈련 단계에 포함되지 않은 건강하고 암이 없는 개인의 대조군 샘플)에 대해 실시예 1 내지 실시예 4에서 얻은 점수의 분포를, "기타" 방법이라고 지칭하는 최신 기술에 기술된 방법(Peiyong Jiang et al., Cancer Discov., 2020, CD-19-0622)에 의해 얻은 점수와 비교하여 보여준다. 상기 기타 방법은, 상기 시작 및/또는 종료를 배제하는 본 개시내용과 달리, 상기 단편의 시작 및/또는 종료 좌표를 또한 고려하고 포함하여, 분석된 샘플에 포함된 cfDNA 단편의 서열 말단 모티프의 양을 측정한다. 유의하지 않은 크루스칼-왈리스 순위 합계 검정(Kruskal-Wallis rank sum test)(p-값 = 0.9966)은 어떠한 방법도 정상 샘플에 대해 다른 접근 방식에 확률적으로 우세하지 않음을 나타낸다. 계산된 점수의 평균값은 각각의 실시예에 대해 0으로 설정된다.
도 2: 이 도면은 무세포 종양("비정상") DNA를 포함하는 샘플에 대해(상기 샘플은 훈련 단계에 포함되지 않음), 실시예 1 내지 실시예 4에서 본 발명의 방법 및 최신 기술의 방법(이하 "기타" 방법이라고 함)에 의해 얻은 점수 값 및 각각의 분포를 보여준다. 이들 점수를 정상 샘플로부터 얻은 점수와 비교할 때(도 1), 실시예 1 내지 실시예 4로부터 본 발명에 따른 방법에 의해 가장 높은 차이가 달성되며, 이는 정상 샘플과 비정상 샘플을 구별하는데 있어서 최신 기술의 방법에 비해 본 방법(실시예 1 내지 실시예 4)의 민감도의 개선(증가)을 명확하게 보여준다.
도 3: 이 도면은 실시예 1 내지 실시예 4에 기술된 방법과 최신 기술의 방법(이하 "기타" 방법이라고 함) 사이의 민감도 성능 비교를 보여준다. 정상 및 비정상 샘플 각각의 점수의 경험 분포로부터, 실시예 1 내지 실시예 4의 방법 및 최신 기술의 ("기타") 방법 모두에 대해 추정 민감도를 계산하였다. 모든 방법에 대한 특이성(즉, 통계적 가설 검정에서의 유의 수준)은 99.9%로 설정되며, 이 데이터세트에 대한 추정 민감도는 각각 실시예 1 내지 실시예 4의 방법에 대해 96.8%, 99.94%, 99.48%, 99.9997%이다. 본 발명의 모든 방법은, 단지 84.3%의 민감도를 달성하는 최신 기술의 방법뿐만 아니라, 단편 크기 및 복제수 변화 정보를 사용하여 샘플을 임상적으로 유용한 범주로 분류하고 단지 60% 내지 90% 범위에 이르는 민감도를 달성하는 문헌에서 현재 이용 가능한 다른 방법(Mouliere et al. 2018 and Adalsteinsson et al. 2017)을 크게 능가한다(데이터는 표시되지 않음).
도 4: 표 1: 이 표는 네 개의 추가 정상 샘플 및 세 개의 추가 비정상 샘플에 대해 실시예 4에서 본 발명의 방법에 의해 얻은 점수를 보여주며, 비정상 샘플은 NSCLC(단계 I)로 진단된 암 환자로부터 얻은 것이다. 이 표는 ctDNA의 양을 소량, 적당량 및 다량으로 분류한 것을 강조하고 있다. 샘플의 ctDNA 양은 합계 진단 점수 값이 2 내지 4.5인 경우 소량으로, 합계 진단 점수 값이 4.5 내지 6인 경우 적당량으로, 그리고 합계 진단 점수 값이 6 이상인 경우 다량으로 분류된다.

본 발명은 샘플을 임상적으로 관련된 범주로 분류하기 위한 견고하고 감도 높고 특이성 있는 액체 생검 분석법을 확립하기 위해, ctDNA 시퀀싱으로부터 추출 가능한 확장된 범위의 정보를 기반으로 새로운 생물정보학적 분석을 활용하고, 새로운 다중파라미터 전략을 구현하는 액체 생검 방법을 기술한다.

본 발명의 일 실시형태는 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법에 관한 것으로, 상기 방법은 다수의 cfDNA 단편의 말단 또는 "시작 및/또는 종료" 및 선택적으로 시작 및/또는 종료 ± 1개의 염기쌍의 서열 좌표를 결정하는 단계를 포함한다. cfDNA 단편의 "시작 및/또는 종료"는 본원에서 cfDNA 단편의 말단, 경계 또는 최외각 염기쌍 또는 뉴클레오티드와 관련된다. cfDNA 단편의 서열 좌표를 결정하는 단계는 참조 서열에 대한 정렬에 의해 달성될 수 있으며, 여기서 참조 서열은 유기체의 DNA 서열, 바람직하게는 hg19 또는 hg38 인간 게놈 서열, 또는 일 실시형태에서, 건강하거나 암이 없는 인간 대상일 수 있는 인간 대상의 게놈 서열과 같은 인간 DNA 서열일 수 있다.

본 발명의 일 실시형태에서, 서열 좌표를 결정하는 단계는 예를 들어 시퀀싱 분석에 의한 다수의 cfDNA 단편의 핵산 서열을 분석 및/또는 결정하는 단계를 포함할 수 있다. 일 실시형태에서, 서열 좌표를 결정하는 단계는 샘플로부터 핵산 및/또는 특히 cfDNA 단편을 추출 또는 정제하는 단계, 및/또는 샘플로부터 cfDNA 단편을 농축하는 단계, 및/또는 시퀀싱 분석 이전에, 분리된 DNA, RNA 또는 cfDNA로부터 시퀀싱 라이브러리를 제작하는 단계를 더 포함할 수 있다.

시퀀싱 데이터를 분석하는 단계는 참조 게놈 서열에 대해 획득된 cfDNA 핵산 서열 정보를 정렬하는 단계를 포함할 수 있다. 이러한 정렬은 참조 게놈 서열에 대한 분석된 cfDNA 단편의 "시작 및/또는 종료" 또는 말단의 서열 좌표의 매핑을 가능하게 한다. 본 발명의 바람직한 실시형태에서, 시퀀싱된 cfDNA 단편의 시작 및/또는 종료 좌표뿐만 아니라, 시작 및/또는 종료로부터 +1 bp 및 -1 bp 위치의 서열 좌표가 또한 참조 게놈 서열로부터 결정된다.

이후, 샘플 내에 포함된 다수의 cfDNA 단편에서의 각각의 결정된 시작 및/또는 종료 서열 좌표의 빈도가 결정될 수 있다. 동일한 cfDNA 단편(기술적 복제) 또는 두 개의 다른 cfDNA 단편(생물학적 복제)에 대해 검출된 좌표는 모두 다수의 cfDNA 단편에서 검출된 각각의 시작 및/또는 종료 서열 좌표의 빈도(풍부도(abundance))를 계산하는 단계에서 고려된다. 본 발명의 바람직한 실시형태에서, 각각의 시작 및/또는 종료 좌표의 빈도뿐만 아니라, 시작 및/또는 종료 좌표로부터 각각의 서열 좌표 +1 bp 및 -1 bp의 빈도가 또한 샘플의 cfDNA 단편 내에서 결정된다.

본 발명의 일 실시형태에서, 해당 기준 빈도에 대한 각각의 결정된 참조 게놈 좌표의 빈도의 비율이 결정된다. 바람직한 실시형태에서, 기준 빈도에 대한 샘플 내의 좌표의 빈도의 비율은 또한 시작 및/또는 종료 +1 bp 및 -1 bp 서열 좌표의 각각의 빈도에 대해 계산된다.

이후, 진단 점수는 본 발명의 방법에 따라 모든 빈도 비율로부터 계산될 수 있는데, 상기 진단 점수는 실시예 1에 기술된 바와 같이 얻어진 모든 빈도 비율의 가중합으로 정의되며, 여기서 분석된 샘플은, 진단 점수 값이 기준 점수의 적어도 1 표준 편차만큼 기준 점수의 평균보다 높은 경우, 종양 cfDNA를 포함하는 것으로 분류되며, 기준 점수는 하나 이상의 기준 값으로부터 계산된다.

본 발명의 일 실시형태에서, 샘플에 포함된 다수의 cfDNA 단편의 시작 및/또는 종료 좌표를 결정하는 단계 이후, 예를 들어 트리뉴클레오티드(세 개의 연속 뉴클레오티드), 테트라뉴클레오티드(네 개의 연속 뉴클레오티드) 및/또는 펜타뉴클레오티드(다섯 개의 연속 뉴클레오티드)로 구성된 참조 서열 내의 모든 핵산 모티프가, 각각의 시작 및/또는 종료 서열 좌표 안쪽이지만 1 이상의 bp만큼 이에 인접한 염기쌍의 특정 범위 내에서 결정될 수 있다. 본 발명의 일 실시형태에서, 각각의 시작 및/또는 종료 서열 좌표 안쪽이지만 1 이상의 bp만큼 이에 인접한 염기쌍의 특정 범위는 1 bp 내지 5 bp, 2 bp 내지 6 bp, 3 bp 내지 7 bp, 4 bp 내지 8 bp, 5 bp 내지 9 bp, 또는 6 bp 내지 10 bp일 수 있다. 바람직한 실시형태에서, 범위는 샘플 내의 다수의 cfDNA 단편에서 결정된 각각의 시작 및/또는 종료 서열 좌표로부터 안쪽으로 1 bp 내지 5 bp일 수 있다. 모티프는 개인간 가변성(inter-individual variability)(즉, 단일 뉴클레오티드 다형성(single nucleotide polymorphism))을 피하기 위해 참조 게놈 서열에서 채취된다.

핵산 모티프는, 단편의 실제 서열이 아니라, cfDNA 단편이 정렬된 참조 서열 내의 각각의 검출된 시작 및/또는 종료 위치를 기반으로 결정될 수 있다.

이후, 샘플 내의 다수의 cfDNA 단편 내의 검출된 각각의 핵산 모티프의 빈도(풍부도)가 결정될 수 있다. 동일한 cfDNA 단편 또는 두 개의 상이한 cfDNA 단편에 대해 검출된 모티프는 다수의 cfDNA 단편에서 검출된 각각의 모티프의 빈도(풍부도)를 계산하는 단계에서 모두 고려된다. 이어서, 다수의 cfDNA 단편 내의 각각의 핵산 모티프 빈도와 해당 기준 빈도의 비율이 계산된다. 이후, 본 발명의 방법에 따라 진단 점수는 모든 빈도 비율로부터 계산되고, 상기 진단 점수는 실시예 2에 기술된 바와 같이 모든 빈도 비율의 가중합으로 정의되며, 여기서 분석된 샘플은, 진단 점수 값이 기준 점수의 적어도 1 표준 편차만큼 기준 점수의 평균보다 높은 경우, 종양 cfDNA를 포함하는 것으로 분류되며, 기준 점수는 하나 이상의 기준 값으로부터 계산된다.

본 발명의 일 실시형태에서, 샘플 내에 포함된 다수의 cfDNA 단편의 시작 및/또는 종료 좌표를 결정하는 단계 이후, 예를 들어 트리뉴클레오티드(세 개의 연속 뉴클레오티드), 테트라뉴클레오티드(네 개의 연속 뉴클레오티드) 및/또는 펜타뉴클레오티드(다섯 개의 연속 뉴클레오티드)로 구성된 참조 서열 내의 모든 핵산 모티프가, 각각의 시작 및/또는 종료 서열 좌표 바깥쪽이지만 1 이상의 bp만큼 이에 인접한 염기쌍의 특정 범위 내에서 결정될 수 있다.

본 발명의 일 실시형태에서, 각각의 시작 및/또는 종료 서열 좌표 바깥쪽이지만 1 이상의 bp만큼 이에 인접한 염기쌍의 특정 범위는 1 bp 내지 5 bp, 2 bp 내지 6 bp, 3 bp 내지 7 bp, 4 bp 내지 8 bp, 5 bp 내지 9 bp, 또는 6 bp 내지 10 bp일 수 있다. 바람직한 실시형태에서, 범위는 샘플 내의 다수의 cfDNA 단편에서 결정된 각각의 시작 및/또는 종료 서열 좌표로부터 바깥쪽으로 1 bp 내지 5 bp일 수 있다. 핵산 모티프는 cfDNA 단편이 정렬된 참조 서열 내의 각각의 검출된 시작 및/또는 종료 위치를 기반으로 결정될 수 있다. 이러한 핵산 모티프는 cfDNA 단편이 정렬되는 1 이상의 bp만큼 인접한 참조 서열의 핵산 서열만을 포함할 수 있다. 이러한 모티프는 cfDNA 단편의 핵산 서열을 포함하지 않지만, 참조 서열의 시작 또는 종료 좌표 바로 바깥쪽에서 시작하는, 예를 들어 시작 및/또는 종료에서1 bp 내지 5 bp 바깥쪽이지만 이에 인접한 좌표에서 시작하는 서열을 포함한다.

이후, 샘플 내의 다수의 cfDNA 단편 내의 검출된 각각의 핵산 모티프의 빈도가 결정될 수 있다. 동일한 cfDNA 단편 또는 두 개의 상이한 cfDNA 단편에 대해 검출된 모티프는 다수의 cfDNA 단편에서 검출된 각각의 모티프의 빈도(풍부도)를 계산하는 단계에서 모두 고려된다. 이어서, 다수의 cfDNA 단편 내의 각각의 핵산 모티프 빈도와 해당 기준 빈도의 비율이 계산될 수 있다. 마지막으로, 진단 점수는 본 발명의 방법에 따라 모든 빈도 비율로부터 계산될 수 있으며, 상기 진단 점수는 실시예 3에 기술된 바와 같이 모든 빈도 비율의 가중합으로 정의되며, 여기서 분석된 샘플은, 진단 점수 값이 기준 점수의 적어도 1 표준 편차만큼 기준 점수의 평균보다 높은 경우, 종양 cfDNA를 포함하는 것으로 분류되며, 기준 점수는 하나 이상의 기준 값으로부터 계산된다.

본 발명의 일 실시형태에서, (a) 시작 및/또는 종료 서열 좌표(선택적으로 -1 bp 및/또는 +1 bp)의 빈도, (b) cfDNA 단편의 시작 및/또는 종료 좌표 안쪽에 위치하지만 이에 대해 하나 이상의 bp만큼 인접한 모든 핵산 모티프의 빈도 및 (c) cfDNA 서열을 포함하지 않고, cfDNA 단편 시작 및/또는 종료 좌표 바깥쪽에 위치하지만 이에 대해 1 이상의 bp만큼 인접한 모든 핵산 모티프의 빈도의 비율로부터 점수를 계산하는 본원에서의 상기한 모든 방법 단계는 기준 빈도와 비교하여 동시에 또는 특정 순서로 수행될 수 있고, 이어서 단계 (a), 단계 (b) 및 단계 (c) 중 두 개 또는 모두의 진단 점수 값을 사용하여 실시예 4에 기술된 바와 같이 본 발명의 방법에 따라 합계 진단 점수 값을 계산할 수 있다 이 합계 진단 점수 값에 따라, 분석된 샘플은, 합계 진단 점수 값이 기준 점수의 적어도 1 표준 편차만큼 기준 점수의 평균보다 높은 경우, 종양 cfDNA 또는 순환 종양 DNA(ctDNA)를 포함하는 것으로 분류되며, 기준 점수는 하나 이상의 기준 값으로부터 계산된다.

일 실시형태에서, 각각의 비정상 샘플에 대해 얻어진 합계 진단 점수 값을 기준 점수와 비교함으로써, 샘플 내의 종양 cfDNA 또는 ctDNA의 양은, (a) 합계 진단 점수가 기준 점수의 2 내지 4 표준 편차인 경우 소량으로, (b) 합계 진단 점수가 기준 점수의 4 내지 6.5 표준 편차인 경우 적당량으로, 그리고 합계 진단 점수가 기준 점수의 6.5 표준 편차 이상인 경우 (c) 다량으로 분류될 수 있다. (표 1).

무세포 핵산

본원에서, 핵산 단편의 혼합물은 바람직하게 진핵 생물, 바람직하게는 영장류, 더욱 바람직하게는 인간으로부터 채취된 샘플로부터 분리된다. 샘플은 다른 조직 유형의 세포 또는 핵산을 포함할 수 있다. 이와 같이, 샘플은 본질적으로 핵산 단편의 혼합물을 포함할 수 있다.

본원에서, "핵산" 또는 "핵산 서열"은 DNA, RNA, 게놈 DNA, 무세포 DNA 및/또는 RNA, 및 tRNA, 메신저 RNA(mRNA), 합성 DNA 또는 RNA와 제한되지 않고 상호교환적으로 사용될 수 있다.

본 발명의 맥락에서, "핵산 단편" 및 "단편화된 핵산"이란 용어는 상호교환적으로 사용될 수 있다. 본 발명에 따른 방법의 바람직한 실시형태에서, 핵산 단편은 순환 무세포 DNA 또는 RNA이다.

본 발명의 일 실시형태에서, 샘플 내에 포함된 최소 100,000개의 cfDNA 단편이 분석될 수 있다. 또 다른 실시형태에서, 분석하고자 하는 샘플 내에 포함된 cfDNA 단편의 수는 10만 내지 50만, 50만 내지 100만, 100만 내지 200만, 200만 내지 500만, 500만 내지 1000만, 1000만 내지 2000만, 2000만 내지 5000만, 또는 5000만 내지 5억이다.

본 발명의 일 실시형태에서, "샘플"은 무세포 DNA(cfDNA), 무세포 종양 DNA(cftDNA), 순환 종양 DNA(ctDNA) 또는 순환 cftDNA를 포함하는 혈액 샘플, 혈청 샘플, 혈장 샘플, 액체 생검 샘플 또는 DNA 샘플(예를 들어, 핵산 단편의 혼합물)이다. . 본 발명의 맥락에서, "cfDNA", "cftDNA", "ctDNA" 또는 "순환 cftDNA"라는 용어는 상호교환적으로 사용될 수 있다.

일 실시형태에서, 샘플은 종양이 있거나 있는 것으로 의심되는 대상으로부터의 혈장 샘플, 혈액 샘플, 소변 샘플, 가래 샘플, 뇌척수액(cerebrospinal fluid) 샘플, 복수(ascites) 샘플 및 흉수(pleural fluid) 샘플로 이루어진 군에서 선택된다. 일 실시형태에서, 샘플 또는 DNA 샘플은 종양 또는 일련의 악성 세포가 있거나 있는 것으로 의심되는 대상의 조직 샘플로부터 얻은 것이다.

본 발명의 맥락에서, "종양", "암" 또는 "비정상"이라는 용어는 상호교환적으로 사용될 수 있다. 본원에서, "암" 또는 "종양"이라는 용어는 또한 초기 단계의 암 또는 진행 암, 전이성 또는 전암성 조직 또는 세포를 포함할 수 있다. 본원에서, 종양 샘플 또는 비정상 샘플은 원발성 종양 또는 전이성 종양에서 유래하는 (무세포) DNA 또는 RNA를 포함하는 샘플에 관한 것일 수 있다. 정상 샘플 또는 참조 샘플은 본원에서 암이 아닌, 건강한 또는 "정상" 조직(들) 또는 세포(들)에서 유래한 (무세포) DNA 또는 RNA만을 포함하는 샘플에 관한 것일 수 있다. 본 발명의 맥락에서, "정상", "대조군" 또는 "참조"라는 용어는 상호교환적으로 사용될 수 있다.

본 발명의 방법은 다양한 생물학적 샘플과 함께 사용될 수 있다. 기본적으로 유전자 물질, 예를 들어 RNA 또는 DNA, 특히 무세포 DNA(cfDNA) 또는 무세포 RNA를 포함하는 모든 생물학적 샘플은, 해당 RNA 또는 DNA의 유전적 분석을 위한 방법에서 샘플로 사용될 수 있다. 예를 들어, 일 실시형태에서, DNA 샘플은 무세포 DNA(cfDNA)를 포함하는 혈장 샘플 또는 혈액 샘플이다.

종양학 목적을 위한 또 다른 실시형태에서, 샘플은 종양 또는 암이 있거나 있는 것으로 의심되는 대상으로부터 얻은 생물학적 샘플이다. 일 실시형태에서, 샘플은 순환 무세포 종양 DNA(cftDNA)를 포함한다. 또 다른 실시형태에서, 샘플은 대상의 소변, 가래, 복수, 뇌척수액 또는 흉막 삼출액이다. 또 다른 실시형태에서, 종양학적 샘플은 대상의 말초 혈액으로부터 제조된 대상의 혈장 샘플이다. 따라서, 샘플은 대상의 혈액 샘플로부터 비침습적으로 얻어진 액체 생검 샘플일 수 있는데, 이에 따라 감지할 수 있거나 손으로 만져질 수 있는 종양이 발생하기 전에 암을 조기에 발견할 수 있고, 질병 진행, 질병 치료, 또는 질병 재발을 모니터링할 수 있다.

본원에서, 무세포 DNA(cfDNA)는 세포 내에 포함되지 않은 DNA를 의미한다. 샘플은 정상 또는 건강한 세포 및/또는 암세포로부터의 cfDNA를 포함할 수 있다. 무세포 DNA는 분비, 세포 사멸 또는 괴사를 통해 혈액이나 혈청으로 방출될 수 있다. cfDNA가 종양 또는 암세포에서 방출되는 경우, 무세포 종양 DNA(cftDNA)라고 할 수 있다.

본 발명의 맥락에서, "대상"이라는 용어는 동물, 바람직하게는 포유동물, 더욱 바람직하게는 인간 또는 인간 환자를 의미한다. 본원에서 사용된 "대상"이라는 용어는 종양이 있거나 있는 것으로 의심되는 대상을 의미할 수 있다.

본원에서, "종양"은 일반적으로 고형 종양, 선종, 혈액암, 간암, 폐암, 췌장암, 전립선암, 유방암, 위암, 교모세포종, 대장암, 두경부암, 진행 단계의 암의 종양, 양성 또는 악성 종양, 전이성 또는 전암성 조직을 포함하지만 이에 한정되지 않는 암을 의미한다

본원에서, cfDNA 단편의 "말단"은 핵산 단편의 3' 및 5' 말단에 있는 최외각 뉴클레오티드를 정의하며 여기에서 "cfDNA 단편의 "시작 및/또는 종료(위치)" 또는 "절단점(break point)" 또는 " 경계"라고도 할 수 있다. 참조 서열에 대해 정렬될 때, cfDNA 단편의 "(시작 및/또는 종료) 좌표" 또는 "서열 좌표"는 참조 서열 내에서 cfDNA 단편의 말단이 정렬되는 최외각 핵산 서열 위치에 의해 정의된다. 예를 들어, cfDNA 단편이 서열 위치 1500 bp에서 1700 bp까지 이르는 참조 핵산 서열에 상보적이거나 이에 정렬되는 경우, 서열 좌표는 1500 및 1700 bp일 수 있으며, cfDNA 단편의 길이는 200 bp로 정의된다.

166-bp 주요 피크와 10-bp 간격의 더 작은 피크를 나타내는 cfDNA의 크기 프로파일은, cfDNA의 생물학적 특성이 뉴클레오솜 구조와 관련이 있을 수 있음을 시사하였다. 암 환자의 혈장 DNA에서도 유사한 패턴이 관찰되었다. 원래 조직과 관련된 cfDNA의 비-무작위 단편화 패턴은 환자의 건강 상태와도 관련이 있을 수 있다. 따라서, 무세포 DNA 단편의 말단 또는 시작 및/또는 종료 좌표 및 빈도는 질병 진행 상황을 나타낸다. 이들 좌표와 빈도는 종양의 기원 및 종양의 규모에 따라 다르며, 이는 질병의 정도 및 주어진 치료에 대한 반응을 반영한다.

본원에서 사용된 "시작 및/또는 종료" 좌표로부터 "안쪽으로"라는 용어는 서열 또는 모티프가 연장되는 참조 서열에서 핵산 단편의 "시작 및/또는 종료" 좌표로부터의 방향을 의미한다. "안쪽으로"는 핵산 단편의 서열 또는 이것이 정렬되는 참조 서열에 포함된 핵산 서열 또는 모티프와 관련될 수 있다. "안쪽으로"는 시작 좌표로부터 +1, +2, +3, +4, +5개 등의 염기쌍 및/또는 핵산 단편의 종료 좌표로부터 -1, -2, -3, -4, -5개의 염기쌍을 나타낼 수 있다. 일 실시형태에서, 각각의 시작 및/또는 종료 서열 좌표 안쪽이지만 이에 인접한 염기쌍의 범위는 각각의 시작 및/또는 종료 좌표로부터 1 bp 내지 5 bp, 2 bp 내지 6 bp, 또는 3 bp 내지 7 bp, 또는 4 bp 내지 8 bp, 또는 5 bp 내지 9 bp 또는 6 bp 내지 10 bp일 수 있다.

본원에서 사용된 시작 및/또는 종료" 좌표로부터 "바깥쪽으로"라는 용어는 서열이 연장되는 참조 서열에서 핵산 단편의 "시작 및/또는 종료" 좌표로부터의 방향을 의미한다. "바깥쪽으로"는 핵산 단편의 서열 또는 이것이 정렬되는 참조 서열에 포함되지 않은 핵산 서열 또는 모티프와 관련될 수 있다. "바깥쪽으로"는 종료 좌표로부터 +1, +2, +3, +4, +5개 등의 염기쌍 및/또는 핵산 단편의 시작 좌표로부터 -1, -2, -3, -4, -5개의 염기쌍을 나타낼 수 있다. 일 실시형태에서, 각각의 시작 및/또는 종료 서열 좌표 바깥쪽이지만 이에 인접한 염기쌍의 범위는 각각의 시작 및/또는 종료 좌표로부터 1 bp 내지 5 bp, 2 bp 내지 6 bp, 또는 3 bp 내지 7 bp, 또는 4 bp 내지 8 bp, 또는 5 bp 내지 9 bp 또는 6 bp 내지 10 bp일 수 있다.

본 방법은 시작 및/또는 종료 좌표 ± 1 bp의 빈도 및/또는 시퀀스 모티프를 분석하는데, 단편의 관찰된 말단 부위가 반드시 실제 절단 부위가 아닐 수도 있기 때문이다(Peiyong Jiang et al., Genome Res., 2020, doi: 10.1101/gr.261396.120). 따라서, 근처의 게놈 염기가 진정한 절단 부위가 될 가능성을 고려함으로써, 본 발명은 생물학적 샘플을 임상적으로 관련된 범주로 분류하는 데 있어서 현재의 기술적 수준에 비해 향상된 정확성을 가져온다.

본원에서, "핵산 모티프", "서열 모티프" 또는 "모티프"는 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 100개 등의 연속적인 뉴클레오티드로 구성된 핵산 서열 내의 연속적인 뉴클레오티드의 배열을 의미한다. 이러한 연속적인 뉴클레오티드의 배열은 "트리뉴클레오티드", "테트라뉴클레오티드", "펜타뉴클레오티드", "헥사뉴클레오티드" 등으로도 불릴 수 있다. 상기 모티프는, 무세포 및/또는 순환 DNA 분자가 생성되어 혈장으로 방출될 때, 예를 들어 특정 뉴클레아제에 의해 우선적으로 절단되는 인간 게놈 위치의 서브세트이다. 세포 사멸 동안 DNA와 같은 핵산을 절단하는 뉴클레아제로부터 생성된 이러한 혈장 DNA 말단 모티프는 HSNRF를 포함하거나 이에 대해 특이적일 수 있는 뚜렷한 특징을 나타낸다. 바람직한 실시형태에서, "모티프"는 참조 게놈 서열로부터의 3, 4 또는 5개의 연속적인 뉴클레오티드의 배열을 의미한다.

일 실시형태에서, 핵산 모티프는 cfDNA 단편의 말단 또는 절단점에 위치할 수 있으며, 여기서 모티프는 cfDNA 단편의 핵산 서열 내에 포함되거나, cfDNA 단편 서열의 경계 외부에 있을 수 있고 예를 들어 cfDNA 단편이 정렬되는 곳에 인접한 참조 핵산 서열 내부에 있을 수 있다.

cfDNA 분석

본원에서, "참조 서열"은 임의의 핵산 서열, 게놈 서열, 유기체 또는 대상의 게놈 서열, 바람직하게는 인간 게놈(예를 들어, hg19 또는 hg38) 또는 건강한 개인 또는 대상의 서열일 수 있다.

본원에서, 시작 및/또는 종료 서열 좌표의 빈도에 대한 "기준 빈도"는 하나 이상의 참조 게놈, 참조 서열 내의, 또는 하나 이상의 건강한 또는 "정상" 대조군 샘플, 대상 또는 환자의 하나 이상의 게놈 또는 서열 내의 대응하는 시작 및/또는 종료 서열 좌표의 빈도일 수 있다. 본원에서, 핵산 모티프에 대한 "기준 빈도"는 하나 이상의 참조 게놈, 참조 서열 내의, 또는 하나 이상의 건강한 또는 "정상" 대조군 샘플, 대상 또는 환자의 하나 이상의 게놈 또는 서열 내의 대응하는 핵산 모티프의 빈도일 수 있다.

본원에서, "빈도"는 풍부도 및 발생률과 상호 교환적으로 사용될 수 있다. 본 발명의 일 실시형태에서, "빈도"는 예를 들어 샘플에 포함된 다수의 핵산 또는 cfDNA 단편에서 검출되거나 카운트된 핵산 서열 모티프, 핵산(cfDNA) 단편 또는 시작 및/또는 종료 서열 좌표의 풍부도 및 발생률 또는 개수를 말한다.

본원에서, "비율"은 예를 들어 참조 샘플 내의 동일한 핵산 서열 모티프의 빈도에 대한, 샘플 내의 다수의 핵산 단편에서 검출된 핵산 서열 모티프의 빈도의 수학적 관계 또는 비율을 의미할 수 있다. 본원에서, 비율은 각각의 좌표 또는 모티프의 빈도를 해당 좌표 또는 모티프의 해당 기준 빈도로 나눔으로써 계산될 수 있다.

샘플 준비를 위해, DNA 및/또는 RNA와 같은 핵산이 본 기술 분야에 공지된 표준 기술을 사용하여 샘플에서 추출되며, 이의 비제한적인 예는 QIAsymphony(QIAGEN) 프로토콜, QIAamp Circulating Nucleic acid(QIAGEN), KingFisher(Thermofisher) 프로토콜, MagMAX™ Cell-free DNA(Thermofisher), 또는 무세포 DNA 분리에 적합한 기타 수동 또는 자동 추출 방법이다.

분리 이후, 샘플의 무세포 DNA는 샘플을 차세대 시퀀싱(Next Generation Sequencing, NGS)과 같은 다운스트림 시퀀싱 기술과 호환될 수 있도록 시퀀싱 라이브러리 제작에 사용될 수 있다. 일반적으로, 여기에는 무세포 DNA 단편의 말단에 어댑터를 연결하는 단계가 포함된다. 시퀀싱 라이브러리 제작 키트는 상업적으로 이용 가능하거나 개발될 수 있다.

cfDNA의 표적화된 농축은 인간 게놈의 관심 영역에 결합하는 타겟 캡처 시퀀스(Target Capture Sequence, TACS)를 사용하여 수행되며, 여기서 풀 내의 각각의 서열은 길이가 125 내지 260개의 염기쌍 사이이고 및/또는 길이가 125 내지 300개의 bp이고, 및/또는 길이가 125 내지 350개의 bp이고, 각각의 서열은 5' 말단 및 3' 말단을 갖고; 풀 내의 각각의 서열은 복제수 변이(Copy number Variation), 분절 중복(Segmental duplication) 또는 반복적 DNA 요소가 존재하는 영역으로부터, 5' 말단 및 3' 말단 모두에서, 떨어진 적어도 10개의 염기쌍을 포함하는 관심 영역에 결합하며; TACS의 GC 함량은 20% 내지 50%, 및/또는 20% 내지 60%, 및/또는 20% 내지 70% 및/또는 20% 내지 80%이다.

본원에서, "타겟 캡처 시퀀스" 또는 "TACS"라는 용어는 관심 게놈 서열(들) 상의 관심 영역(들)에 상보적인 DNA 서열을 의미하며, 이들 DNA 서열은 생물학적 샘플로부터 제작된 전체 게놈 시퀀싱 라이브러리와 같은 대규모 시퀀스 라이브러리에서 관심 영역을 캡처하고 농축하기 위해 "미끼"로 사용된다. 본 발명의 맥락에서, "타겟 캡처 시퀀스" 또는 "TACS" 또는 "프로브"라는 용어는 상호교환적으로 사용된다.

또 다른 실시형태에서, TACS 풀은 AKT1, ALK, APC, AR, ARAF, ATM, BAP1, BARD1, BMPR1A, BRAF, BRCA1, BRCA2, BRIP1, CDH1, CDK4, CDKN2A (pl4ARF), CDKN2A (pl6INK4a), CHEK2, CTNNB1, DDB2, DDR2, DICERl, EGFR, EPCAM, ERBB2, ERBB3, ERBB4, ERCC1, ERCC2, ERCC3, ERCC4, ERCC5, ESR1, FANCA, FANCB, FANCC, FANCD2, FANCE, FANCF, FANCG, FANCI, FANCL, FANCM, FBXW7, FGFR1, FGFR2, FLT3, FOXA1, FOXL2, GATA3, GNA11, GNAQ, GNAS, GREM1, HOXB13, IDH1, IDH2, JAK2, KEAP1, KIT, KRAS, MAP2K1, MAP3K1, MEN1, MET, MLH1, MPL, MRE11A, MSH2, MSH6, MTOR, MUTYH, MYC, MYCN, NBN, NPM1, NRAS, NTRK1, PALB2, PDGFRA, PIK3CA, PIK3CB, PMS2, POLD1, POLE, POLH, PTEN, RAD50, RAD51C, RAD51D, RAF1, RBI, RET, ROS1, RUNX1, SDHA, SDHAF2, SDHB, SDHC, SDHD, SLX4, SMAD4, SMARCA4, SPOP, STAT, STK11, TMPRSS2, TP53, VHL, XPA, XPC 및 이들의 조합으로 이루어지지만 이에 한정되지 않는 군에서 선택되는 다수의 관심 종양 바이오마커 서열에 결합한다. 일 실시형태에서, TACS 풀은 EGFR_6240, KRAS_521, EGFR_6225, NRAS_578, NRAS_580, PIK3CA_763, EGFR_13553, EGFR_18430, BRAF_476, KIT_1314, NRAS_584, EGFR_12378 및 이들의 조합으로 이루어진 군에서 선택되는 다수의 관심 종양 바이오마커 서열에 결합한다.

또 다른 실시형태에서, TACS 풀은 COSM6240 (EGFR_6240), COSM521 (KRAS_521), COSM6225 (EGFR_6225), COSM578 (NRAS_578), COSM580 (NRAS_580), COSM763 (PIK3CA_763), COSM13553 (EGFR_13553), COSM18430 (EGFR_18430), COSM476 (BRAF_476), COSM1314 (KIT_1314), COSM584 (NRAS_584), COSM12378 (EGFR_12378) 및 이들의 조합으로 이루어지지만 이에 한정되지 않는 군에서 선택되는 다수의 관심 종양 바이오마커 서열에 결합하고, 여기서 식별자는 바이오마커의 COSMIC 데이터염기 ID를 나타낸다. 일반적으로, 프로브-하이브리드화 또는 농축 단계는 시퀀싱 라이브러리가 생성되기 전 또는 라이브러리가 생성된 후에 수행될 수 있다.

본 발명의 일 실시형태에서, 시퀀싱 라이브러리는, 예를 들어 비-무작위 단편화의 핫스팟을 커버하는 하나 이상의 프로브에 라이브러리를 혼성화함으로써 관심 영역의 서열에 대해 강화될 수 있다. 이러한 HSNRF 영역은, cfDNA의 혼합물에 존재하는 다양한 조직 유형(예를 들어, 암 및 정상)의 식별을 용이하게 하는 수많은 핵산 서열 변이를 짧은 거리 내에 포함할 가능성이 높은 영역이다.

HSNRF가 위치하는 관심 염색체(들) 상의 관심 영역(들)은, HSNRF 캡처 프로브 풀을 시퀀싱 라이브러리에 혼성화하고, 이후 시퀀싱 라이브러리 내에서 프로브에 결합하는 서열을 분리함으로써 풍부해진다. 일 실시형태에서, 프로브는 단편화된 무세포 핵산의 5' 말단만이 프로브에 의해 캡처되도록 HSNRF 부위에 걸쳐 있다. 또 다른 실시형태에서, 프로브는 HSNRF로부터 발생하는 단편화된 무세포 핵산의 3' 말단만이 프로브에 결합할 수 있도록 HSNRF 부위에 걸쳐 있다. 또 다른 바람직한 실시형태에서, 프로브는 주어진 HSNRF 부위와 관련된 무세포 핵산의 5' 및 3' 말단 모두가 프로브에 의해 캡처되도록 단편화된 핵산과 관련된 HSNRF 부위 모두에 걸쳐 있다.

원하는 풍부한 서열(HSNRF)의 분리를 용이하게 하기 위해, 일반적으로 프로브 서열은, 프로브에 혼성화하는 서열이 프로브에 혼성화하지 않는 서열로부터 분리될 수 있는 방식으로 변형된다. 일반적으로, 이는 프로브를 지지체에 고정함으로써 달성된다. 이로써 프로브에 결합하지 않는 서열로부터 프로브에 결합하는 서열을 물리적으로 분리할 수 있다. 예를 들어, 프로브 풀 내의 각각의 서열은 비오틴으로 표지될 수 있으며, 풀은 이후 스트렙타비딘(streptavidin) 또는 아비딘(avidin)과 같은 비오틴-결합 물질(biotin-binding substance)로 코팅된 비드(bead)에 결합될 수 있다. 바람직한 실시형태에서, 프로브는 비오틴으로 표지되고, 스트렙타비딘-코팅된 자성 비드에 결합됨으로써, 비드의 자기 특성을 이용하여 분리될 수 있다. 그러나, 통상의 기술자는 다른 친화성 결합 시스템이 본 기술 분야에 공지되어 있고 비오틴-스트렙타비딘/아비딘 대신에 사용될 수 있음을 인식할 것이다. 예를 들어, 프로브가 항원으로 표지된 다음 항체-코팅된 비드에 결합되는 항체 기반 시스템이 사용될 수 있다. 또한, 프로브는 한쪽 말단에서 서열 태그(sequence tag)를 포함할 수 있고, 서열 태그에 혼성화하는 지지체 상의 상보적 서열을 통해 지지체에 결합될 수 있다. 또한, 자성 비드 외에도, 폴리머 비드, 유리 등과 같은 다른 유형의 지지체가 사용될 수 있다.

특정 실시형태에서, 프로브 풀에 결합하는 시퀀싱 라이브러리의 구성원은 프로브에 완전히 상보적이다. 다른 실시형태에서, 프로브 풀에 결합하는 시퀀싱 라이브러리의 구성원은 프로브에 부분적으로 상보적이다. 예를 들어, 특정 상황에서, 농축 과정의 산물이지만 관심 있는 게놈 영역에는 반드시 속하지는 않고(즉, 부분적인 상동성으로 인해 프로브에 결합될 수 있고), 시퀀싱될 때 비-프로브 좌표에서 걸쳐 게놈 전체에 걸쳐 매우 낮은 커버리지를 생성할 수 있는 DNA 단편의 데이터를 활용하고 분석하는 것이 바람직할 수 있다.

프로브를 사용하여 관심 서열(들)을 농축하여 HSNRF 부위가 있는 DNA의 강화된 라이브러리를 형성한 후, 강화된 HSNRF 라이브러리의 구성원이 본 기술 분야에 공지된 표준 방법을 사용하여 용출되고 증폭되며 시퀀싱된다. 또 다른 실시형태에서, 프로브는 스트렙타비딘-코팅된 자성 비드와 함께 제공되는 비오틴화 프로브(biotinylated probe)와 같은 지지체와 함께 제공된다.

종양 바이오마커의 검출을 위해, 프로브는 본원에 기술된 설계 기준 및 암과 관련된 종양 바이오마커 유전자 및 유전적 돌연변이의 공지된 서열을 기반으로 설계된다. 일 실시형태에서, 방법에서 사용되는 다수의 프로브는 다수의 관심 종양 바이오마커 서열에 결합한다. 여기에서, 프로브는 돌연변이 부위에 인접한 비-무작위 단편화의 핫스팟에 위치할 수 있다.

본원에서, 차세대 시퀀싱(NGS)이 핵산 서열 분석에 사용될 수 있지만, 서열 정보뿐만 아니라 매우 정확한 카운팅을 제공하는 다른 시퀀싱 기술도 사용될 수 있다. 따라서 디지털 PCR, 단일 분자 시퀀싱(single molecule sequencing), 나노포어 시퀀싱(nanopore sequencing), DNA 나노볼 시퀀싱(DNA nanoball sequencing), 결찰에 의한 시퀀싱, 이온 반도체 시퀀싱(Ion semiconductor sequencing), 합성에 의한 시퀀싱, 마이크로어레이와 같은 다른 정확한 계수 방법이 또한 NGS 대신에 사용될 수 있다.

일 실시형태에서, 본 발명은 검출하고자 하는 핵산 단편 또는 결정하고자 하는 이의 기원이 동일한 유전자 좌(genetic locus)이지만 다른 기원의 핵산 단편보다 낮은 농도로 혼합물에 존재하는 방법에 관한 것이다.

본 방법은 이러한 낮은 농도의 표적 cfDNA를 분석하는 데 특히 적합하다. 본 발명에 따른 방법에서, 검출하고자 하는 핵산 단편 또는 결정하고자 하는 이의 기원, 및 동일한 유전자 좌이지만 다른 기원의 핵산 단편은 1:2, 1:4, 1:10, 1:20, 1:50, 1:100, 1:200, 1:500, 1:1000, 1:2000 및 1:5000의 군에서 선택되는 비율로 혼합물에 존재한다. 비율은 ± 30%, 20% 또는 10%를 의미하는 대략적인 비율로 이해해야 한다. 본 기술 분야의 숙련자는 이러한 비율이 상기한 수치 값에서 정확히 발생하지 않을 것임을 알고 있다. 비율은 풍부한 유형의 유전자 좌 특이적 분자의 수에 대한 희귀 유형의 유전자 좌 특이적 분자의 수를 나타낸다.

데이터 분석

강화된 라이브러리의 시퀀싱에서 얻은 정보는 혁신적인 생물수학/생물통계 데이터 분석 파이프라인을 사용하여 분석된다. 본 방법은, 참조 게놈 서열을 사용하여 종료 좌표에 대해 1 이상의 bp만큼 인접한 모든 가능한 모티프의 조합을 포함하는 cfDNA 단편의 특징을 이용하며, 관찰된 cfDNA 말단 부위는 제외하는데 이들 부위는 실제 절단 부위를 나타내지 않을 수 있기 때문이다. 또한, 위치와 모티프를 포함하여 cfDNA의 다양한 특징의 분석을 결합함으로써, 본 발명은 향상된 정확도, 즉 동일한 특이성 수준에서 증가된 민감도라는 예상치 못한 기술적 효과를 달성하였다.

본 발명의 바람직한 실시형태에 따르면, 표적화된 페어드-엔드(targeted paired-end) 차세대 시퀀싱이 수행된다. 모든 샘플에 대한 다중화된 데이터는 Illumina bcl2fastq 도구를 사용하여 역다중화된다. 상기 샘플의 시퀀싱 데이터는 cutadapt 소프트웨어(Martin, M. et al. 2011 EMB.netJournal 17.1)를 사용하여 어댑터 시퀀스 및 품질이 낮은 리드(판독, read)(Q-점수 <25)를 제거하기 위해 처리된다.

적어도 25개의 염기 길이인 처리된 리드는 Burrows-Wheel 정렬 알고리즘(Li, H. and Durbin, R. (2009) Bioinformatics 25:1754-1760)을 사용하여 인간 참조 게놈 빌드 GRCh37(hg19)(UCSC Genome Bioinformatics)에 대해 정렬되었다. 삽입 크기(insert size)가 임계값보다 큰 페어드-리드는 제거되었으며, 상기 임계값은 100 내지 600 범위에 있다. 해당되는 경우, 중복된 리드가 식별되고, 고유 분자 식별자(Unique Molecular Identifier, UMI) 계열별로 그룹화되어, 정렬 후 UMI 계열별로 일치 리드(consensus read)를 생성하는 데 사용된다.

해당되는 경우, 동일한 샘플에 속하지만 별도의 시퀀싱 레인에서 처리된 시퀀싱 출력을 단일 시퀀싱 출력 파일로 병합하였다. 복제물의 활용 및 병합 절차는 fgbio, picard 도구 소프트웨어 제품군(Broad Institute) 및 Sambamba 도구 소프트웨어 제품군(Sambamba reference, Tarasov, Artem, et al. Sambamba: fast processing of NGS alignment formats. Bioinformatics 31.12 (2015): 2032-2034)을 사용하여 수행하였다. 매핑 위치(최외각 및 인근 좌표), 관심 유전자 좌에서 염기당 리드-깊이 및 단편 크기에 관한 정보는 SAMtools 소프트웨어 제품군의 mpileup 옵션(따라서 mpileup 파일이라고 함)을 사용하여 얻었으며, Python 및 R 프로그래밍 언어(Python Software Foundation (2015) Python; The R Foundation (2015) The R Project for Statistical Computing)로 작성된 맞춤형 애플리케이션 프로그래밍 인터페이스(API)를 사용하여 처리하였다.

단편의 종료 좌표는 단편에 걸쳐 있는 참조 게놈의 가장 최외각 좌표로 정의된다, 즉 정렬된 각각의 단편은 두 개의 종료 좌표(참조 게놈에 대해 시작/가장 왼쪽 위치(5' 말단) 및 종료/가장 오른쪽 위치(3' 말단))를 갖는다.

본 발명의 다양한 실시형태에서, 표적화된 패널은 최소 500개의 표적 게놈 염기로 구성되었다. 샘플당 필요한 최소 단편 수는 100,000개이다.

본원에서, "진단 점수 값"은 '실시예 부분'의 실시예 1, 실시예 2 및 실시예 3에 기술된 모든 빈도 비율의 가중합으로 계산된다.

본원에서, "합계 진단 점수 값"은 실시예 4에 기술된 바와 같이 본 발명에 개시된 모든 단계로부터 적어도 두 개 이상의 빈도 비율의 가중합으로 계산된다.

본 발명의 일 실시형태에서, "기준 점수"는 하나 이상의 "기준 값"으로부터 계산될 수 있다.

일 실시형태에서, 기준 값 또는 기준 점수는 하나 이상의 정상 또는 참조 샘플에서 얻은 데이터로부터 계산될 수 있다. 일 실시형태에서, 기준 값 또는 기준 점수, 및 분석된 샘플의 값(예를 들어, 핵산 모티프의 빈도 또는 시작 및/또는 종료 좌표의 빈도) 또는 비교하고자 하는 분석된 샘플에 대한 진단 점수는 본원에 개시된 바와 동일한 계산 방법에 따라 계산된다.

샘플 분류

본원에서, 샘플의 분류는 이진 분류(즉, 암, 암이 아님; 좋은 예후, 나쁜 예후; 재발, 재발이 아님) 및 cftDNA의 양을 소량, 적당량 및 다량으로 분류하는 것을 포함한다.

샘플 분류를 위한 임상적으로 관련된 범주는 암의 존재 또는 부재, 질병 또는 암의 완화, 질병 또는 암의 재발, 초기 암 단계 및 예후일 수 있다.

일 실시형태에서, 샘플 내 종양 cfDNA의 양, 존재 또는 풍부도는, 합계 진단 점수가 기준 점수의 2 내지 4 표준 편차인 경우 소량으로, 합계 점수가 기준 점수의 4 내지 6.5 표준 편차인 경우 적당량으로, 그리고 합계 점수가 기준 점수의 6.5 표준 편차 이상인 경우 다량으로 분류될 수 있다.

종양학 용도

본 발명은 암의 치료, 또는 종양 크기 평가, 최소 잔류 질병 검출, 치료 결과 모니터링, 환자 결과의 장기간 모니터링에 사용될 수 있다. 본 발명은 또한 표적 요법에 적합한 돌연변이의 식별 및 암 체세포 및 생식계열 돌연변이의 검출에 사용될 수 있다. 본 방법은 다른 방법으로는 검출할 수 없는 작은 종양의 조기 발견을 가능하게 하고, 더욱 표적화되고 맞춤화된 치료법을 가능하게 한다.

키트

또 다른 양태에서, 본 발명은 본 발명의 방법을 수행하기 위한 키트를 제공한다. 일 실시형태에서, 키트는 프로브 풀, 소프트웨어. 및 방법을 수행하기 위한 지침으로 구성된 용기를 포함한다.

프로브 풀 외에도, 키트는: (i) 생물학적 샘플로부터 무세포 DNA를 분리하기 위한 하나 이상의 구성요소, (ii) 시퀀싱 라이브러리를 제작하고 강화하기 위한 하나 이상의 구성요소(예를 들어, 프라이머, 어댑터, 버퍼, 링커, DNA 변형 효소, 결찰 효소, 폴리머라제 효소, 프로브 등), (iii) 강화된 라이브러리를 증폭 및/또는 시퀀싱하기 위한 하나 이상의 구성 요소, 및/또는 (iv) 통계 분석을 수행하기 위한 소프트웨어 중 하나 이상을 포함할 수 있다. (i), (ii) 및 (iii)에서 언급된 단계를 수행하기에 적합한 구성요소는 본 기술 분야의 숙련자에게 잘 알려져 있다.

일 실시형태에서, 프로브는 비오틴화 프로브와 같은 고체 지지체에 결합될 수 있는 형태로 제공된다. 또 다른 실시형태에서, 프로브는 스트렙타비딘-코팅된 자성 비드와 함께 제공되는 비오틴화 프로브와 같은 고체 지지체와 함께 제공된다.

다양한 다른 실시형태에서, 키트는 방법의 다른 양태를 수행하기 위한 추가 구성요소를 포함할 수 있다. 예를 들어, 프로브 풀 외에도, 키트는: (i) 모체 혈장 샘플로부터 무세포 DNA를 분리하기 위한 하나 이상의 구성요소; (ii) 시퀀싱 라이브러리를 제작하기 위한 하나 이상의 구성요소(예를 들어, 프라이머, 어댑터, 링커, 제한 효소, 결찰 효소, 폴리머라제 효소); (iii) 강화된 라이브러리를 증폭 및/또는 시퀀싱하기 위한 하나 이상의 구성요소; 및/또는 (iv) 통계 분석을 수행하기 위한 소프트웨어 중 하나 이상을 포함할 수 있다. (i), (ii) 및 (iii)에서 언급된 단계를 수행하기에 적합한 구성요소는 본 기술 분야의 숙련자에게 잘 알려져 있다.

실시예

실시예 1

샘플에 포함된 다수의 cfDNA 단편의 시작 및/또는 종료(± 1개의 염기쌍)의 결정은 참조 서열에 대한 정렬에 의해 달성되었다. 이후, 샘플 내에 포함된 다수의 cfDNA 단편 내의 각각의 결정된 시작 및/또는 종료 서열 좌표의 빈도를 결정하였다. 해당 기준 빈도에 대한 각각의 결정된 참조 게놈 좌표의 빈도의 비율을 결정하였고, 얻어진 모든 빈도 비율의 가중합(이하 "진단 점수"라 함)을 계산하였다.

본 발명의 일 실시형태에 따라, 각각의 염기 i( 여기서 i = 1,… B이고, B는 상기 패널의 표적 염기의 총수와 같음)에 대해, 확률 변수(X _i )는:

(A1) 염기 i에서 시작 위치 좌표를 갖는 조건, 또는

(A2) 염기 i에서 종료 위치 좌표를 갖는 조건, 또는

(A3) 염기 i에서 시작 -1의 염기 위치 좌표를 갖는 조건, 또는

(A4) 염기 i에서 시작 +1의 염기 위치 좌표를 갖는 조건, 또는

(A5) 염기 i에서 종료 -1의 염기 위치 좌표를 갖는 조건, 또는

(A6) 염기 i에서 종료 +1의 염기 위치 좌표를 갖는 조건 중 적어도 하나를 충족시키는 매핑된 리드의 총수로 정의되었다.

귀무 가설(즉, 배경 모델)에 따르면, 게놈의 서로 다른 염기에서 조건 A1 내지 조건 A6 중 적어도 하나를 충족시키는 리드의 수는 다르지만 안정적으로 관찰될 것으로 예상되며, 상기 염기당 배경 확률 분포 모델은 정상 샘플 세트로부터 추정된다. 위의 X _i 의 정의에서, X _i ~ Bin(x _i ;n _i ,p _i )가 있으며, n _i 는 염기 i에 걸친 리드의 총수와 같고, p _i 는 모든 i, 즉 에 대해 다음과 같이 추정된다:

여기서 z _i,j 는 정상 샘플 j에 대한 염기 i에서 조건 A1 내지 조건 A6 중 적어도 하나를 충족시키는 관측된 리드의 수이고, n _i,j 는 총 N개의 정상 샘플 중 정상 샘플 j에 대한 염기 i에 걸친 리드의 총수이다. 매우 작은 p와 큰 n을 갖는 이항 분포는 비율 파라미터가 np인 푸아송 분포(Poisson distribution)에 의해 근사화될 수 있다. 따라서, 염기당 배경 모델은 수학 공식 에 의해 정의되며, n _i 는 염기 i에 걸친 리드의 총수와 같다. 본 발명의 또 다른 실시형태에서, 모든 j에 대해 z _i ,j/n _i ,j에 의해 정의된 확률 변수를 각각의 염기 i에서 모델링하기 위해 와이불(Weibull) 또는 베타 분포(Beta distribution)가 사용된다.

염기당 배경 모델을 훈련시킨 후 다음과 같이 진행하였다. 각각의 샘플 k에 대해, 본 발명의 일 실시형태에서, 다음이 수행된다: 각각의 X _i 에 대해, 관측 값, 즉 x _i 를 추정된 염기당 배경 모델과 비교하였다. p-값, 즉 P(X _i > x _i ) = 1 - P(X _i ≤ x _i )가 0.001 미만인 경우, X _i 의 관측 값을 염기 i에 걸친 리드의 총수로 나누었다, 즉 Y _i = X _i /n _i 이고, 아니면 Yi = 0이다. 샘플별 점수는 이후 다음과 같이 계산된다: , 여기서 n ₂ 는 염기의 총수이고, Y _i > 0이다. 그리고 나서, 다음의 수학 공식을 사용하여 정규화된 점수 S _1,k 를 얻기 위해 S _0,k 가 정규화된다.

여기서 m과 s는 정상 참조 샘플의 모든 S ₀ 값의 평균 및 표준 편차이다 (도 1, 도 2 및 도 3).

실시예 2

cfDNA 단편의 시작 및/또는 종료(± 1개의 염기쌍) 서열 좌표를 결정한 후, 참조 게놈로부터 참조 서열 내의 모든 핵산 모티프를 결정하였다. 상기 모티프는 트리뉴클레오티드, 테트라뉴클레오티드 및/또는 펜타뉴클레오티드로 구성되었고, 시작 및/또는 종료 좌표 안쪽이지만 1개 이상의 염기쌍만큼 이에 대해 인접한 염기쌍의 특정 범위 내에 있었다. 해당 기준 빈도에 대한 다수의 cfDNA 단편 내의 핵산 모티프 빈도 각각의 빈도의 비율을 결정하였고, 얻어진 모든 빈도 비율의 가중합(여기서는 "진단 점수"라고 함)을 계산하였다.

본 발명의 일 실시형태에 따라, 각각의 샘플, 즉 k에 대해, hg19 참조 게놈 상에 정렬된 각각의 cfDNA 단편에 대한 두 개의 서열을 결정하였고, 상기 서열은 정렬된 cfDNA 단편의 두 개의 말단(단편에 걸쳐 있는 핵산 서열 제외)으로부터 안쪽으로 1 내지 5개의 염기쌍 범위 내의 hg19 게놈 서열을 포함하고, 상기 서열 내의 모든 트리뉴클레오티드(예를 들어, ACC, GGT 등), 테트라뉴클레오티드 및 펜타뉴클레오티드 서열 모티프의 절대 빈도를 계산하였다, 즉, T _if (여기서 i = 1,… n _j , j = 3,4,5)는 뉴클레오티드의 수이고 n _j 는 가능한 모든 j-뉴클레오티드 모티프의 수이다(n ₃ = 64, n ₄ = 256, n ₅ = 1024). 샘플별 점수 S _2,k 는 다음과 같이 계산된다.

위의 공식에서, D _k 는 샘플 k의 일치 단편의 총수이고, K,r _ij 는 ctDNA가 없는 샘플의 훈련 데이터세트로부터 계산된 f _ij 의 기준 값이고, m _ij 와 s _ij 는 ctDNA가 없는 샘플의 훈련 데이터세트로부터 계산된 f _ij 의 참조 평균과 표준 편차이고, w _ij 는 정상 샘플과 비정상 샘플을 최적으로 분리하기 위해 훈련 세트로부터 최적화된 가중치()이다. 가중치 b _j 는 본 발명의 다양한 실시형태에서 변할 수 있는데, b ₃ = 1/12 또는 1/6 또는 1/3 또는 1/2이고, b ₄ = 1/12 또는 1/6 또는 1/3 또는 1/2이며, b ₅ = 1 - b3 - b4이다(도 1, 도 2 및 도 3).

실시예 3

cfDNA 단편의 시작 및/또는 종료(± 1개의 염기쌍) 서열 좌표를 결정한 후, 참조 게놈로부터 참조 서열 내의 모든 핵산 모티프를 결정하였다. 상기 모티프는 트리뉴클레오티드, 테트라뉴클레오티드 및/또는 펜타뉴클레오티드로 구성되었고, 시작 및/또는 종료 좌표 바깥쪽이지만 1개 이상의 염기쌍만큼 이에 대해 인접한 염기쌍의 특정 범위 내에 있었다. 해당 기준 빈도에 대한 다수의 cfDNA 단편 내의 핵산 모티프 빈도 각각의 빈도의 비율을 결정하였고, 얻어진 모든 빈도 비율의 가중합(여기서는 "진단 점수"라고 함)을 계산하였다.

방법의 일 실시형태에 따라, 각각의 샘플, 즉 k에 대해, hg19 참조 게놈 상에 정렬된 각각의 cfDNA 단편에 대한 두 개의 서열을 결정하였고, 상기 서열은 정렬된 cfDNA 단편의 두 개의 말단(단편에 걸쳐 있는 핵산 서열 제외)으로부터 바깥쪽으로 1 내지 5개의 염기쌍 범위 내의 hg19 게놈 서열을 포함하고, 상기 서열 내의 모든 트리뉴클레오티드(예를 들어, ACC, GGT 등), 테트라뉴클레오티드 및 펜타뉴클레오티드 서열 모티프의 절대 빈도를 계산하였다, 즉, T _ij (여기서 i = 1,… n _j , j = 3,4,5)는 뉴클레오티드의 수이고 n _j 는 가능한 모든 j-뉴클레오티드 모티프의 수이다(n ₃ = 64, n ₄ = 256, n ₅ = 1024). 샘플별 점수 S _2,k 는 다음과 같이 계산된다.

위의 공식에서, D _k 는 샘플 k의 일치 단편의 총수이고, k,r _ij 는 ctDNA가 없는 샘플의 훈련 데이터세트로부터 계산된 f _ij 의 기준 값이고, m _ij 와 s _ij 는 ctDNA가 없는 샘플의 훈련 데이터세트로부터 계산된 의 참조 평균과 표준 편차이고, w _ij 는 정상 샘플과 비정상 샘플을 최적으로 분리하기 위해 훈련 세트로부터 최적화된 가중치()이다. 가중치 b _j 는 본 발명의 다양한 실시형태에서 변할 수 있는데, b ₃ = 1/12 또는 1/6 또는 1/3 또는 1/2이고, b ₄ = 1/12 또는 1/6 또는 1/3 또는 1/2이며, b ₅ = 1 - b3 - b4이다(도 1, 도 2 및 도 3).

실시예 4

방법의 일 실시형태에 따라, 실시예 1, 실시예 2 및 실시예 3에서 계산된 점수 중 적어도 두 개의 점수의 가중합을 각각의 샘플에 대해 계산하였으며, 상기 가중합은 결국 "합계 진단 점수"라고 지칭된다. 샘플 k에 대한 진단 점수, 즉 DS _k 는 위의 실시예 1, 실시예 2 및 실시예 3에 기술된 점수 중 적어도 두 개의 점수의 가중 평균으로 정의된다.

여기서 S ₁ , S ₂ 및 S ₃ 은 각각 실시예 1, 실시예 2 및 실시예 3에서 계산되고, 본 발명의 다양한 실시형태에서, w ₁ = 0.5 또는 0.4 또는 0.3 또는 0.2 또는 0(소수점 첫째 자리 반올림)이고, w ₂ = 0.5 또는 0.4 또는 0.3 또는 0.2 또는 0(소수점 첫째 자리 반올림)이며, w ₃ = 1 - w ₁ - w ₂ 이다). 방법의 또 다른 실시형태에서, 샘플 k에 대한 DS 점수, 즉 DS _k = zMAX(S _1,k ,S _2,k ,S _3,k ) + (1-z)MIN(S _1,k ,S _2,k ,S _3,k )(여기서, 0.5 < z < 1)를 계산하기 위해 {S ₁ ,S ₂ ,S ₃ }의 최대값과 최소값의 가중 평균이 사용된다.

Claims

샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법으로서, 방법은:
(i) 다수의 무세포 DNA(cfDNA) 단편을 포함하는 샘플에서, 참조 서열에 대한 정렬에 의해 적어도 100,000개의 cfDNA 단편의 시작 및/또는 종료의 서열 좌표 및 시작 및/또는 종료 ± 1개의 염기쌍의 서열 좌표를 결정하는 단계와,
(ii) 샘플에 포함된 다수의 cfDNA 단편에서, 단계 (i)에서 결정된 각각의 좌표의 빈도를 결정하는 단계와,
(iii) 해당 기준 빈도에 대한 단계 (ii)에서 결정된 각각의 좌표의 빈도의 비율을 계산하는 단계와,
(iv) 단계 (iii)에서 결정된 모든 비율로부터 진단 점수를 계산하는 단계로서, 상기 점수는 단계 (iii)에서 결정된 모든 빈도 비율의 가중합인, 단계, 및
(v) 진단 점수를 기준 점수와 비교하여 샘플의 분류를 결정하는 단계를 포함하고,
여기서 샘플은, 진단 점수 값이 기준 점수의 적어도 1 표준 편차만큼 기준 점수의 평균보다 높은 경우, 종양 cfDNA를 포함하는 것으로 분류되며, 기준 점수는 하나 이상의 기준 값으로부터 계산되는, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법.
샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법으로서, 방법은:
(i) 다수의 무세포 DNA(cfDNA) 단편을 포함하는 샘플에서, 참조 서열에 대한 정렬에 의해 적어도 100,000개의 cfDNA 단편의 시작 및/또는 종료의 서열 좌표를 결정하는 단계와,
(ii) 참조 서열에서, 단계 (i)에서 결정된 각각의 시작 및/또는 종료 서열 좌표 안쪽이지만 이에 인접한 1 내지 5개의 염기쌍의 범위 내에서 트리뉴클레오티드, 테트라뉴클레오티드 및 펜타뉴클레오티드로 구성된 모든 핵산 모티프를 결정하는 단계와,
(iii) 샘플에 포함된 다수의 cfDNA 단편에서, 단계 (ii)에서 결정된 각각의 핵산 모티프의 빈도를 결정하는 단계와,
(iv) 해당 기준 빈도에 대한 단계 (iii)에서 결정된 각각의 빈도의 비율을 계산하는 단계와,
(v) 단계 (iv)에서 결정된 모든 비율로부터 진단 점수를 계산하는 단계로서, 상기 점수는 단계 (iv)에서 결정된 모든 빈도 비율의 가중합인, 단계, 및
(vi) 진단 점수를 기준 점수와 비교하여 샘플의 분류를 결정하는 단계를 포함하고,
여기서 샘플은, 진단 점수 값이 기준 점수의 적어도 1 표준 편차만큼 기준 점수의 평균보다 높은 경우, 종양 cfDNA를 포함하는 것으로 분류되며, 기준 점수는 하나 이상의 기준 값으로부터 계산되는, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법.
샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법으로서, 방법은:
(i) 다수의 무세포 DNA(cfDNA) 단편을 포함하는 샘플에서, 참조 서열에 대한 정렬에 의해 적어도 100,000개의 cfDNA 단편의 시작 및/또는 종료의 서열 좌표를 결정하는 단계와,
(ii) 참조 서열에서, 단계 (i)에서 결정된 각각의 시작 및/또는 종료 서열 좌표 안쪽이지만 이에 인접한 1 내지 5개의 염기쌍의 범위 내에서 트리뉴클레오티드, 테트라뉴클레오티드 및 펜타뉴클레오티드로 구성된 모든 핵산 모티프를 결정하는 단계와,
(iii) 샘플에 포함된 다수의 cfDNA 단편에서, 단계 (ii)에서 결정된 각각의 핵산 모티프의 빈도를 결정하는 단계와,
(iv) 해당 기준 빈도에 대한 단계 (iii)에서 결정된 각각의 빈도의 비율을 계산하는 단계와,
(v) 단계 (iv)에서 결정된 모든 비율로부터 진단 점수를 계산하는 단계로서, 상기 점수는 단계 (iv)에서 결정된 모든 빈도 비율의 가중합인, 단계, 및
(vi) 진단 점수를 기준 점수와 비교하여 샘플의 분류를 결정하는 단계를 포함하고,
여기서 샘플은, 진단 점수 값이 기준 점수의 적어도 1 표준 편차만큼 기준 점수의 평균보다 높은 경우, 종양 cfDNA를 포함하는 것으로 분류되며, 기준 점수는 하나 이상의 기준 값으로부터 계산되는, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법.
샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법으로서, 방법은:
(i) 다수의 무세포 DNA(cfDNA) 단편을 포함하는 샘플에서, 참조 서열에 대한 정렬에 의해 적어도 100,000개의 cfDNA 단편의 시작 및/또는 종료의 서열 좌표를 결정하는 단계와,
(ii) a) 단계 (i)에서 결정된 각각의 시작 및/또는 종료 서열 좌표 안쪽이지만 이에 인접한 1 내지 5개의 염기쌍의 범위 내에서, 및/또는
b) 단계 (i)에서 결정된 각각의 시작 및/또는 종료 서열 좌표에 바깥쪽이지만 이에 인접한 1 내지 5개의 염기쌍의 범위 내에서,
참조 서열에서, 트리뉴클레오티드, 테트라뉴클레오티드 및 펜타뉴클레오티드로 구성된 모든 핵산 모티프를 결정하는 단계와,
(iii) a) 샘플에 포함된 다수의 cfDNA 단편에서, 단계 (i)에서 결정된 각각의 서열 좌표 ± 1개의 염기쌍, 및
b) 샘플에 포함된 다수의 cfDNA 단편에서, 단계 (ii) a) 및 단계 (ii) b)에서 결정된 각각의 핵산 모티프의,
빈도를 결정하는 단계와,
(iv) 해당 기준 빈도에 대한 단계 (iii) a) 및 단계 (iii) b)에서 결정된 각각의 빈도의 비율을 계산하는 단계와,
(v) 단계 (iv)에서 결정된 각각의 비율에 대해 개별적으로 진단 점수를 계산하는 단계로서, 상기 점수는 단계 (iv)의 모든 개별 빈도 비율의 각각의 가중합인, 단계와,
(vi) 단계 (v)에서 결정된 진단 점수 중 적어도 두 개 이상으로부터 합계 진단 점수를 계산하는 단계로서, 상기 점수는 단계 (v)에서 결정된 상기 두 개 이상의 진단 점수의 가중합이고, 및
(vii) 합계 진단 점수를 기준 점수와 비교하여 샘플의 분류를 결정하는 단계를 포함하고,
여기서 샘플은, 합계 진단 점수 값이 기준 점수의 적어도 1 표준 편차만큼 기준 점수의 평균보다 높은 경우, 종양 cfDNA를 포함하는 것으로 분류되며, 기준 점수는 하나 이상의 기준 값으로부터 계산되는, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법.
제 4 항에 있어서,
합계 진단 점수는 제 4 항의 단계 (v)에서 계산된 모든 진단 점수로부터 계산되는, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법.
제 2 항 내지 제 5 항 중 어느 한 항에 있어서,
각각의 시작 및/또는 종료 서열 좌표 안쪽이지만 이에 인접한 염기쌍의 범위는 각각의 시작 및/또는 종료 좌표로부터 2 bp 내지 6 bp, 또는 3 bp 내지 7 bp, 또는 4 bp 내지 8 bp, 또는 5 bp 내지 9 bp 또는 6 bp 내지 10 bp일 수 있는, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
분석하고자 하는 샘플 내에 포함된 cfDNA 단편의 최소량은 10만 내지 50만, 50만 내지 100만, 100만 내지 200만, 200만 내지 500만, 또는 500만 내지 1000만, 또는 1000만 내지 2000만, 또는 2000만 내지 5000만, 또는 5000만 내지 5억인, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법.
제 4 항 내지 제 7 항 중 어느 한 항에 있어서,
샘플 내의 종양 cfDNA의 양은, 합계 진단 점수가 기준 점수의 2 내지 4 표준 편차인 경우 소량으로, 합계 점수가 기준 점수의 4 내지 6.5 표준 편차인 경우 적당량으로, 그리고 합계 점수가 기준 점수의 6.5 표준 편차 이상인 경우 다량으로 분류될 수 있는, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법.
제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
참조 샘플은 암이 없는 환자, 또는 비-재발 환자, 또는 성공적으로 치료된 암 환자로부터의 샘플일 수 있는, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법.
제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
단계 (i)는 참조 서열에 대한 정렬 이전에 샘플 내의 다수의 cfDNA 단편 중 적어도 일부의 핵산 서열을 결정하는 단계를 포함하는, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법.
제 1 항 내지 제 10 항 중 어느 한 항에 있어서,
단계 (i)는 cfDNA 단편의 핵산 서열을 결정하는 단계 이전에 cfDNA 단편을 농축하는 단계를 더 포함하는, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법.
제 1 항 내지 제 11 항 중 어느 한 항에 있어서,
샘플은 혈액암, 간암, 폐암, 췌장암, 전립선암, 유방암, 위암, 교모세포종, 대장암, 두경부암, 고형 종양, 양성 종양, 악성 종양, 진행 단계의 암, 전이성 또는 전암성 조직으로 이루어진 군에서 선택되는 종양에서 유래하는 종양 cfDNA를 포함하는 것으로 분류되는, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법.
키트로서, 키트는:
(i) 제 1 항 내지 제 12 항의 중 어느 한 항에 따른 방법을 수행하기 위한 구성요소로서, 구성요소는:
a) 생물학적 샘플로부터 무세포 DNA를 분리하기 위한 하나 이상의 구성요소와,
b) 시퀀싱 라이브러리를 제작하고 강화하기 위한 하나 이상의 구성요소, 및/또는
c) 강화된 라이브러리를 증폭 및/또는 시퀀싱하기 위한 하나 이상의 구성요소를 포함하는 구성요소와,
(ii) 통계 분석을 수행하기 위한 소프트웨어를 포함하는, 키트.