KR20220118551A

KR20220118551A - 임신 중 긴 세포유리 단편을 사용한 분자 분석

Info

Publication number: KR20220118551A
Application number: KR1020227027103A
Authority: KR
Inventors: 육-밍 데니스 로; 로사 와이 쿤 치우; 콴 치 찬; 페이용 지앙; 숙 항 청; 측 인 유; 위 팅 청; 웬레이 펭
Original assignee: 더 차이니즈 유니버시티 오브 홍콩
Priority date: 2020-02-05
Filing date: 2021-02-05
Publication date: 2022-08-25
Also published as: CN115066504A; TW202424206A; TWI835367B; EP4069864A1; NZ790326A; KR102662186B1; KR20230113840A; GB2605736A; GB2626687B; JP7311934B2; GB202405740D0; IL298811A; JP2024045112A; GB2626687A; EP4069864A4; IL298811B2; MX2022009820A; WO2021155831A1; AU2023204613B2; IL303888A

Abstract

본원에 기재된 방법 및 시스템은 임신한 대상체의 생물학적 샘플을 분석하기 위해 긴 세포유리 DNA 단편을 사용하는 것을 포함한다. 메틸화된 CpG 부위 및 단일 뉴클레오타이드 다형성(SNP)의 상태를 사용하여 종종 생물학적 샘플의 DNA 단편을 분석한다. CpG 부위 및 SNP는 전형적으로 가장 가까운 CpG 부위 또는 SNP와 수백 또는 수천 개의 염기쌍에 의해서 분리되어 있다. 대부분의 세포유리 DNA 단편에서 2개 이상의 연속적인 CpG 부위 또는 SNP를 찾는 것은 개연성이 낮거나 불가능하다. 600 bp 보다 긴 세포유리 DNA 단편은 다수의 CpG 부위 및/또는 SNP를 포함할 수 있다. 긴 세포유리 DNA 단편에 다수의 CpG 부위 및/또는 SNP가 존재하면 짧은 세포유리 DNA 단편만 사용하는 것보다 분석이 가능할 수 있다. 긴 세포유리 DNA 단편은 기원 조직을 식별하고/하거나 임신한 여성의 태아에 대한 정보를 제공하는 데 사용할 수 있다.

Description

임신 중 긴 세포유리 단편을 사용한 분자 분석

관련 출원의 교차 참조

본 출원은 2020년 2월 5일자로 출원된 미국 가출원 제62/970,634호 및 2021년 1월 8일자로 출원된 미국 가출원 제63/135,486호의 우선권 이익을 주장하며 이들 둘 다의 전문은 모든 목적을 위해서 본원에 원용된다.

임신 중 순환하는 세포유리(cell-free) DNA의 모달 크기는 대략 166 bp인 것으로 보고되어 있다(문헌[Lo et al. Sci Transl Med. 2010;2:61ra91]). 600 bp보다 큰 단편에 대한 발표된 데이터는 거의 없다. 한 가지 예는 모 혈장의 Y 염색체로부터의 염기성 단백질 Y2 유전자(BPY2)의 8 kb 단편의 PCR을 사용하여 증폭을 보고한 아미쿠치(Amicucci) 등의 연구이다(문헌[Amicucci et al. Clin Chem 2000;40: 301-2]). 이러한 데이터가 게놈 전체에 걸쳐 일반화될 수 있는지 여부는 알려져 있지 않다. 실제로, 대규모 병렬 짧은 판독물 시퀀싱 기술, 예를 들어, Illumina 플랫폼을 사용하여 예를 들어, 600 bp 초과의 이러한 긴 DNA 단편을 감지하는 데는 많은 문제가 있다(문헌[Lo et al. Sci Transl Med. 2010;2:61ra91; Fan et al, Clin Chem. 2010;56:1278-86]). 이러한 도전은 하기를 포함한다: (1) Illumina 시퀀싱 플랫폼의 권장 크기 범위는 전형적으로 100 내지 300 bp이다(문헌[De Maio et al. Micob Genom. 2019;5(9)]). (2) DNA 증폭은 시퀀싱 라이브러리 준비(PCR을 통해) 또는 유동 셀에서 브리지 증폭을 통한 시퀀싱 클러스터 생성과 관련됨을 포함한다. 이러한 증폭 과정은 부분적으로 긴 DNA 주형(예를 들어, 600 bp 초과)이 짧은 DNA 주형(예를 들어, 200 bp 미만)에 비해서 딸 가작의 합성을 완결하는 데 비교적 긴 시간이 필요할 것이라는 사실로 인해서 더 짧은 DNA를 증폭시키는 것을 선호할 수 있다. 따라서 Illumina 플랫폼에서 시퀀싱하기 전 또는 도중에 이러한 PCR 프로세스에 대한 고정된 시간 프레임 내에서, PCR 과정 중에 딸 가닥이 완전히 생성되지 않은 긴 DNA 분자는 다운스트림 분석에서 사용할 수 없다. (3) 긴 DNA 분자는 증폭을 방해하는 2차 구조를 형성할 가능성이 더 높을 것이다. (4) Illumina 시퀀싱 기술을 사용하면 라이브러리가 2차원 표면에서 변성, 희석 및 확산된 후 브리지 증폭이 일어나기 때문에, 긴 DNA 분자는 짧은 DNA 분자에 비해 하나 초과의 클론 DNA 분자를 함유하는 클러스터를 유발할 가능성이 더 높을 것이다(문헌[Head et al. Biotechniques. 2014;56:61-4]).

본원에 기재된 방법 및 시스템은 생물학적 샘플을 분석하기 위해 긴 세포유리 DNA 단편을 사용하는 것을 포함한다. 이러한 긴 세포유리 DNA 단편을 사용하면 더 짧은 세포유리 DNA 단편으로 고려되지 않거나 불가능한 분석이 가능하다. 메틸화된 CpG 부위 및 단일 뉴클레오타이드 다형성(SNP: single nucleotide polymorphism)의 상태를 사용하여 종종 생물학적 샘플의 DNA 단편을 분석한다. CpG 부위 및 SNP는 전형적으로 가장 가까운 CpG 부위 또는 SNP와 수백 또는 수천 개의 염기쌍에 의해서 분리되어 있다. 생물학적 샘플에서 대부분의 세포유리 DNA 단편의 길이는 일반적으로 200 bp 미만이다. 결과적으로, 대부분의 세포유리 DNA 단편에서 2개 이상의 연속적인 CpG 부위 또는 SNP를 찾는 것은 개연성이 낮거나 불가능하다. 600 bp 또는 1 kb보다 긴 것을 포함하여 200 bp 보다 긴 세포유리 DNA 단편은 다수의 CpG 부위 및/또는 SNP를 포함할 수 있다. 긴 세포유리 DNA 단편에 다수의 CpG 부위 및/또는 SNP가 존재하면 짧은 세포유리 DNA 단편만 사용하는 것보다 더 효율적이고/이거나 정확한 분석이 가능할 수 있다. 긴 세포유리 DNA 단편은 기원 조직을 식별하고/하거나 임신한 여성의 태아에 대한 정보를 제공하는 데 사용할 수 있다. 또한, 긴 세포유리 DNA 단편을 사용하여 임신한 여성으로부터의 샘플을 정확하게 분석하는 것은 놀라운 일인데, 그 이유는 그러한 긴 세포유리 DNA 단편이 주로 모체 기원일 것으로 예상되기 때문이다. 태아 기원의 긴 세포유리 DNA 단편이 태아에 대한 정보를 제공하기에 충분한 양으로 존재한다고 기대하지 않을 것이다.

SNP가 존재하는 긴 세포유리 DNA 단편을 사용하여 태아에게 유전되는 일배체형을 결정할 수 있다. 긴 세포유리 DNA 단편은 다수의 CpG 부위를 가지고 있어서 조직 기원을 나타내는 메틸화 패턴을 가질 수 있다. 또한, 트리뉴클레오타이드 반복 및 기타 반복 서열이 긴 세포유리 DNA 단편에 존재할 수 있다. 이러한 반복부는 태아의 유전적 장애 또는 태아의 친자 관계의 우도를 결정하는 데 사용될 수 있다. 긴 세포유리 DNA 단편의 양은 재태 연령을 결정하는 데 사용할 수 있다. 유사하게, 긴 세포유리 DNA 단편의 단부의 모티프를 사용하여 재태 연령을 결정할 수도 있다. 긴 세포유리 DNA 단편(예를 들어, 이러한 단편의 양, 길이 분포, 게놈 위치, 메틸화 상태 등 포함)을 사용하여 임신-연관 장애를 결정할 수 있다.

본 개시내용의 이러한 실시형태 및 다른 실시형태가 하기에 상세히 기재되어 있다. 예를 들어, 다른 실시형태는 본원에 설명된 방법과 연관된 시스템, 장치, 및 컴퓨터 판독 가능 매체에 관한 것이다.

본 개시내용의 실시형태의 성질 및 이점은 하기의 상세한 설명 및 첨부된 도면을 참조함으로써 더 잘 이해될 수 있다.

도 1a 및 도 1b는 본 발명의 실시형태에 따라 결정된 세포유리 DNA의 크기 분포를 나타낸다. (a) 선형 배율에서 0 내지 20 kb, (b) 로그 배율에서 0 내지 20 kb.
도 2a 및 도 2b는 본 발명의 실시형태에 따라 결정된 세포유리 DNA의 크기 분포를 나타낸다. (a) y축에 대한 선형 배율에서 0 내지 5 kb. (b) y축에 대한 로그 배율에서 0 내지 5 kb.
도 3a 및 도 3b는 본 발명의 실시형태에 따라 결정된 세포유리 DNA의 크기 분포를 나타낸다. (a) y축에 대한 선형 배율에서 0 내지 400 kb. (b) y축에 대한 로그 배율에서 0 내지 400 kb.
도 4a 및 도 4b는 본 발명의 실시형태에 따라 결정된 공유 대립형질(공유)을 보유한 단편과 태아-특이적(fetal-specific) 대립형질(태아-특이적)을 보유한 단편 사이의 세포유리 DNA의 크기 분포를 나타낸다. (a) y축에 대한 선형 배율에서 0 내지 20 kb bp. (b) y축에 대한 로그 배율에서 0 내지 20 kb. 청색 선은 공유 대립형질(모체 기원의 우성)을 보유하는 단편을 나타내고, 적색 선은 태아-특이적 대립형질(태반 기원)을 보유하는 단편을 나타낸다.
도 5a 및 도 5b는 본 발명의 실시형태에 따라 결정된 공유 대립형질(공유)을 보유한 단편과 태아-특이적 대립형질(태아-특이적)을 보유한 단편 사이의 세포유리 DNA의 크기 분포를 나타낸다. (a) y축에 대한 선형 배율에서 0 내지 5 kb bp. (b) y축에 대한 로그 배율에서 0 내지 5 kb. 청색 선은 공유 대립형질(모체 기원의 우성)을 보유하는 단편을 나타내고, 적색 선은 태아-특이적 대립형질(태반 기원)을 보유하는 단편을 나타낸다.
도 6a 및 도 6b는 본 발명의 실시형태에 따라 결정된 공유 대립형질(공유)을 보유한 단편과 태아-특이적 대립형질(태아-특이적)을 보유한 단편 사이의 세포유리 DNA의 크기 분포를 나타낸다. (a) y축에 대한 선형 배율에서 0 내지 1 kb. (b) y축에 대한 로그 배율에서 0 내지 1 kb. 청색 선은 공유 대립형질(모체 기원의 우성)을 보유하는 단편을 나타내고, 적색 선은 태아-특이적 대립형질(태반 기원)을 보유하는 단편을 나타낸다.
도 7a 및 도 7b는 본 발명의 실시형태에 따라 결정된 공유 대립형질(공유)을 보유한 단편과 태아-특이적 대립형질(태아-특이적)을 보유한 단편 사이의 세포유리 DNA의 크기 분포를 나타낸다. (a) y축에 대한 선형 배율에서 0 내지 400 kb. (b) y축에 대한 로그 배율에서 0 내지 400 kb. 청색 선은 공유 대립형질(모체 기원의 우성)을 보유하는 단편을 나타내고, 적색 선은 태아-특이적 대립형질(태반 기원)을 보유하는 단편을 나타낸다.
도 8은 본 발명의 실시형태에 따른 모-특이적(maternal-specific) 대립형질을 보유하는 단편과 태아-특이적 대립형질을 보유하는 단편 사이의 단일 분자, 이중 가닥 DNA 메틸화 수준을 나타낸다.
도 9a 및 도 9b는 (a) 모-특이적 대립형질을 보유하는 단편과 태아-특이적 대립형질을 보유하는 단편 사이의 단일 분자, 이중-가닥 DNA 메틸화 수준의 적합 분포 및 (b) 본 발명의 실시형태에 따른 단일 분자, 이중-가닥 DNA 메틸화 수준을 사용한 리시버 작동 특징(ROC) 분석을 나타낸다.
도 10a 및 도 10b는 본 발명의 실시형태에 따른 혈장 DNA의 단일 분자와 이중 가닥 DNA 메틸화 수준과 단편 크기 사이의 상관관계를 나타낸다. (a) 0 내지 20 kb의 크기 범위. (b) 0 내지 1 kb의 크기 범위.
도 11a 및 도 11b는 본 발명의 실시형태에 따른 임신한 여성의 모 혈장 DNA에서 식별된 긴 태아-특이적 DNA 분자의 예를 나타낸다. (a) 흑색 막대는 인간 참조 게놈의 염색체 10내의 영역에 정렬된 긴 태아-특이적 DNA 분자를 나타낸다. (b) 본 개시내용에 따른 PacBio 시퀀싱을 사용하여 결정된 유전적인 것 및 후성적인 것의 상세한 설명. 황색으로 강조된 염기(화살표로 표시됨)는 일부 실시형태에서 수정될 수 있는 서열 오류 때문일 수 있다.
도 12a 및 도 12b는 본 발명의 실시형태에 따른 임신한 여성의 모 혈장 DNA에서 식별된 공유 대립형질을 보유하는 긴 모 DNA 분자의 예를 나타낸다. (a) 흑색 막대는 인간 참조의 염색체 6 내의 영역에 정렬된 긴 모-특이적 DNA 분자를 나타낸다. (b) 본 발명의 실시형태에 따른 PacBio 시퀀싱을 사용하여 결정된 유전적 및 후성적 정보의 상세한 설명.
도 13은 본 발명의 실시형태에 따른 1 kb 내지 20 kb의 상이한 해상도에서 메틸화 수준에 따른 태반(적색) 및 산모 혈액 세포(청색)의 DNA에 대한 빈도 분포를 나타낸다.
도 14a 및 14b는 본 발명의 실시형태에 따른 16-kb 및 24-kb 윈도우 내 메틸화 수준에 따른 태반(적색) 및 모 혈액 세포(청색)로부터의 DNA에 대한 빈도 분포를 나타낸다.
도 15a 및 도 15b는 본 발명의 실시형태에 따른 임신한 여성의 모 혈장 DNA에서 식별된 긴 모-특이적 DNA 분자의 예를 나타낸다. (a) 흑색 막대는 인간 참조의 염색체 8 내의 영역에 정렬된 긴 모-특이적 DNA 분자를 나타낸다. (b) 본 발명의 실시형태에 따른 PacBio 시퀀싱을 사용하여 결정된 유전적인 것 및 후성적인 것의 상세한 설명.
도 16은 본 발명의 실시형태에 따른 태아의 모계 유전을 추론하는 예시를 나타낸다.
도 17은 본 발명의 실시형태에 따른 모 및 태아 기원의 정보를 이용하여 혈장 DNA 분자에서 유전적/후성적 장애의 결정을 예시한다.
도 18은 본 발명의 실시형태에 따른 태아 이상 단편의 식별을 예시한다.
도 19a 내지 도 19g는 본 발명의 실시형태에 따른 PacBio 시퀀싱을 사용한 세포유리 DNA 유전자형분석의 오류 수정의 예시를 나타낸다. '.'는 Watson 가닥의 참조 염기와 동일한 염기를 나타낸다. ','는 Crick 가닥의 참조 염기와 동일한 염기를 나타낸다. '알파벳 문자'는 참조 대립형질과 상이한 대체 대립형질을 나타낸다. '*'은 삽입을 나타낸다. '^'는 결실을 나타낸다.
도 20은 본 발명의 실시형태에 따른 태아를 임신한 여성으로부터 얻은 생물학적 샘플의 분석 방법을 나타낸다.
도 21은 본 발명의 실시형태에 따른 일배체형의 유전을 결정하기 위한 태아를 임신한 여성으로부터 얻은 생물학적 샘플의 분석 방법을 나타낸다.
도 22는 본 발명의 실시형태에 따른 혈장 내의 긴 DNA 분자의 기원 조직을 결정하기 위한 메틸화 패턴을 나타낸다.
도 23은 본 발명의 실시형태에 따른 태아 기원 및 모체 기원의 결정을 위한 리시버 작동 특징(ROC) 곡선을 도시한다.
도 24는 본 발명의 실시형태에 따른 쌍별 메틸화 패턴을 나타낸다.
도 25는 본 발명의 실시형태에 따른 상이한 염색체들 사이에서 선택된 마커 영역의 분포의 표이다.
도 26은 본 발명의 실시형태에 따른 마커 영역에 대한 선택 기준으로서 0.3보다 큰 불일치 점수를 갖는 버피 코트 DNA 분자의 상이한 백분율을 사용하여 단일 분자 메틸화 패턴에 기초한 혈장 DNA 분자의 분류의 표이다.
도 27은 본 발명의 실시형태에 따른 비침습적 방식으로 태아 유전을 결정하기 위해 태반-특이적 메틸화 일배체형을 사용하기 위한 공정 흐름을 나타낸다.
도 28은 본 발명의 실시형태에 따른 모 혈장에서 긴 세포유리 DNA를 이용한 취약 X 증후군의 비침습적 산전 검출의 원리를 예시한다.
도 29는 본 발명의 실시형태에 따른 메틸화 패턴에 기초한 태아의 모계 유전을 나타낸다.
도 30은 본 발명의 실시형태에 따른 혈장 DNA 분자의 유전적 및 후성적 정보를 이용하여 태아의 모계 유전에 대한 정성적 분석을 나타낸다.
도 31은 본 발명의 실시형태에 따른 RHDO(Relative Haplotype Dose) 분석과 비교하여 혈장 DNA 분자의 유전적 및 후성적 정보를 이용하여 게놈 전체 방식으로 태아의 모계 유전에 대한 정성적 분석의 검출률을 나타낸다.
도 32는 본 발명의 실시형태에 따른 분석에 사용된 상이한 크기를 갖는 시퀀싱된 혈장 DNA 분자의 수와 게놈 전체 방식의 부계-특이적 변이체의 검출률과의 관계를 나타낸다.
도 33은 본 발명의 실시형태에 따른 취약 X 증후군의 비침습적 검출을 위한 흐름도를 나타낸다.
도 34는 본 발명의 실시형태에 따른 태반 및 버피 코트 DNA의 메틸화 프로파일과 비교한 혈장 DNA의 메틸화 패턴을 나타낸다.
도 35는 본 발명의 실시형태에 따른 인간 게놈에 걸친 500-bp 영역에서 CpG 부위의 분포를 나타낸 표이다.
도 36은 본 발명의 실시형태에 따른 인간 게놈에 걸친 1-kb 영역에서 CpG 부위의 분포를 나타낸 표이다.
도 37은 본 발명의 실시형태에 따른 인간 게놈에 걸친 3-kb 영역에서 CpG 부위의 분포를 나타낸 표이다.
도 38은 본 발명의 실시형태에 따른 메틸화 상태 일치 분석을 사용하여 모 혈장에서 상이한 조직으로부터의 DNA 분자의 비례 기여도를 나타내는 표이다.
도 39a 및 도 39b는 본 발명의 실시형태에 따른 SNP 접근법에 의해 추론된 태반 기여도와 태아 DNA 분율 사이의 관계를 나타낸다.
도 40은 본 발명의 실시형태에 따른 메틸화 패턴 분석을 사용하여 기원 조직을 결정하기 위한 태아를 임신한 여성으로부터 얻은 생물학적 샘플의 분석 방법을 나타낸다.
도 41a 내지 도 41b는 본 발명의 실시형태에 따른 제1 삼분기, 제2 삼분기 및 제3 삼분기 모 혈장 샘플로부터의 세포유리 DNA 분자의 크기 분포를 나타낸다.
도 42는 본 발명의 실시형태에 따른 상이한 임신 삼분기 동안 긴 혈장 DNA 분자의 비율을 나타내는 표이다.
도 43a 및 43b는 본 발명의 실시형태에 따른 제1 삼분기, 제2 삼분기 및 제3 삼분기 모 혈장의 태아-특이적 대립형질을 포함하는 DNA 분자의 크기 분포를 나타낸다.
도 44a 및 도 44b는 본 발명의 실시형태에 따른 제1 삼분기, 제2 삼분기 및 제3 삼분기 모 혈장의 모-특이적 대립형질을 포함하는 DNA 분자의 크기 분포를 나타낸다.
도 45는 본 발명의 실시형태에 따른 상이한 임신 삼분기 동안 긴 태아 혈장 DNA 분자와 모 혈장 DNA 분자의 비율을 나타내는 표이다.
도 46a, 도 46b 및 도 46c는 본 발명의 실시형태에 따른 상이한 삼분기에 걸친 특정 크기 범위의 태아-특이적 혈장 DNA 단편의 비율의 플롯을 나타낸다.
도 47a, 도 47b 및 도 47c는 본 발명의 실시형태에 따른 0 내지 3 kb로부터의 단편 크기 범위에 걸쳐 제1 삼분기, 제2 삼분기 및 제3 삼분기 모 혈장의 세포유리 DNA 분자의 5' 단부에서 염기 함량 비율의 그래프를 나타낸다.
도 48은 본 발명의 실시형태에 따른 제1 삼분기, 제2 삼분기 및 제3 삼분기 모 혈장으로부터의 짧은 세포유리 DNA 분자 및 긴 세포유리 DNA 분자 사이의 단부 뉴클레오타이드 염기 비율의 표이다.
도 49는 본 발명의 실시형태에 따른 제1 삼분기, 제2 삼분기 및 제3 삼분기 모 혈장으로부터의 태아-특이적 대립형질을 포함하는 짧은 세포유리 DNA 분자 및 긴 세포유리 DNA 분자 사이의 단부 뉴클레오타이드 염기 비율의 표이다.
도 50은 본 발명의 실시형태에 따른 제1 삼분기, 제2 삼분기 및 제3 삼분기 모 혈장으로부터의 모-특이적 대립형질을 포함하는 짧은 세포유리 DNA 분자 및 긴 세포유리 DNA 분자 사이의 단부 뉴클레오타이드 염기 비율의 표이다.
도 51은 본 발명의 실시형태에 따른 256개의 단부 모티프를 사용한 짧은 혈장 세포유리 DNA 분자 및 긴 혈장 세포유리 DNA 분자의 계층적 클러스터링 분석을 나타낸다.
도 52a 및 도 52b는 본 발명의 실시형태에 따른 4량체 단부 모티프 프로파일의 주성분 분석을 나타낸다.
도 53은 본 발명의 실시형태에 따른 제1 삼분기 모 혈장의 짧은 혈장 DNA 분자 중 가장 빈도가 높은 25개의 단부 모티프에 대한 표이다.
도 54는 본 발명의 실시형태에 따른 제2 삼분기 모 혈장의 짧은 혈장 DNA 분자 중 가장 빈도가 높은 25개의 단부 모티프에 대한 표이다.
도 55는 본 발명의 실시형태에 따른 제3 삼분기 모 혈장의 짧은 혈장 DNA 분자 중 가장 빈도가 높은 25개의 단부 모티프에 대한 표이다.
도 56은 본 발명의 실시형태에 따른 제1 삼분기 모 혈장의 긴 혈장 DNA 분자 중 가장 빈도가 높은 25개의 단부 모티프에 대한 표이다.
도 57은 본 발명의 실시형태에 따른 제2 삼분기 모 혈장의 긴 혈장 DNA 분자 중 가장 빈도가 높은 25개의 단부 모티프에 대한 표이다.
도 58은 본 발명의 실시형태에 따른 제3 삼분기 모 혈장의 긴 혈장 DNA 분자 중 가장 빈도가 높은 25개의 단부 모티프에 대한 표이다.
도 59a, 도 59b 및 도 59c는 본 발명의 실시형태에 따른 (a) 제1 삼분기, (b) 제2 삼분기 및 (c) 제3 삼분기 모 혈장에서 짧은 DNA 분자 및 긴 혈장 DNA 분자 중 16개의 NNXY 모티프의 모티프 빈도의 산점도를 나타낸다.
도 60은 본 발명의 실시형태에 따른 재태 연령을 결정하기 위한 태아를 임신한 여성으로부터 얻은 생물학적 샘플의 분석 방법을 나타낸다.
도 61은 본 발명의 실시형태에 따른 임신-연관 장애의 우도를 분류하기 위해 태아를 임신한 여성으로부터 얻은 생물학적 샘플을 분석하는 방법을 나타낸다.
도 62는 본 발명의 일 실시형태에 따른 4개의 자간전증 사례의 임상 정보를 나타내는 표이다.
도 63a 내지 도 63d는 본 발명의 실시형태에 따른 자간전증 및 정상혈압 제3 삼분기 모 혈장 샘플로부터의 세포유리 DNA 분자의 크기 분포의 그래프이다.
도 64a 내지 도 64d는 본 발명의 실시형태에 따른 자간전증 및 정상혈압 제3 삼분기 모 혈장 샘플로부터의 세포유리 DNA 분자의 크기 분포의 그래프이다.
도 65a 내지 도 65d는 본 발명의 실시형태에 따른 자간전증 및 정상혈압 제3 삼분기 모 혈장 샘플로부터의 태아-특이적 대립형질을 포함하는 DNA 분자의 크기 분포의 그래프이다.
도 66a 내지 도 66d는 본 발명의 실시형태에 따른 자간전증 및 정상혈압 제3 삼분기 모 혈장 샘플로부터의 태아-특이적 대립형자를 포함하는 DNA 분자의 크기 분포의 그래프이다.
도 67a 내지 도 67d는 본 발명의 실시형태에 따른 자간전증 및 정상혈압 제3 삼분기 모 혈장 샘플로부터의 모-특이적 대립형자를 포함하는 DNA 분자의 크기 분포의 그래프이다.
도 68a 내지 도 68d는 본 발명의 실시형태에 따른 자간전증 및 정상혈압 제3 삼분기 모 혈장 샘플로부터의 모-특이적 대립형자를 포함하는 DNA 분자의 크기 분포의 그래프이다.
도 69a 및 도 69b는 본 발명의 실시형태에 따른 PacBio SMRT 시퀀싱으로 시퀀싱된 자간전증 및 정상혈압 모 혈장 샘플에서의 태아-특이적 대립형질 및 모-특이적 대립형질을 포함하는 짧은 DNA 분자의 비율의 그래프이다.
도 70a 및 도 70b는 본 발명의 실시형태에 따른 PacBio SMRT 시퀀싱 및 Illumina 시퀀싱으로 시퀀싱된 자간전증 및 정상혈압 모 혈장 샘플에서의 짧은 DNA 분자의 비율의 그래프이다.
도 71은 본 발명의 실시형태에 따른 PacBio SMRT 시퀀싱으로 시퀀싱된 자간전증 및 정상혈압 모 혈장 샘플에서 짧은 DNA 분자와 긴 DNA 분자의 상대적 비율을 나타내는 크기 비율의 그래프이다.
도 72a 내지 도 72d는 본 발명의 실시형태에 따른 PacBio SMRT 시퀀싱으로 시퀀싱된 자간전증 및 정상혈압 모 혈장 샘플에서의 혈장 DNA 분자의 상이한 단부의 비율을 나타낸다.
도 73은 4가지 유형의 단편 단부(각각의 가닥의 5' 단부에서 첫 번째 뉴클레오타이드) 각각, 즉, 본 발명의 실시형태에 따른, C-단부, G-단부, T-단부 및 A-단부를 갖는 혈장 DNA 분자의 빈도를 사용한 자간전증 및 정상혈압 제3 삼분기 모 혈장 DNA 샘플의 계층적 클러스터링 분석을 나타낸다.
도 74는 본 발명의 실시형태에 따른 16개의 2-뉴클레오타이드 모티프 XYNN(5' 단부로부터의 첫 번째 및 두 번째 뉴클레오타이드의 디뉴클레오타이드 서열)을 사용한 자간전증 및 정상혈압 제3 삼분기 모 혈장 DNA 샘플의 계층적 클러스터링 분석을 나타낸다.
도 75는 본 발명의 실시형태에 따른 16개의 2-뉴클레오타이드 모티프 NNXY(5' 단부로부터의 세 번째 및 네 번째 뉴클레오타이드의 디뉴클레오타이드 서열)을 사용한 자간전증 및 정상혈압 제3 삼분기 모 혈장 DNA 샘플의 계층적 클러스터링 분석을 나타낸다.
도 76은 본 발명의 실시형태에 따른 256개의 4-뉴클레오타이드 모티프(5' 단부로부터의 첫 번째 내지 네 번째 뉴클레오타이드의 디뉴클레오타이드 서열)을 사용한 자간전증 및 정상혈압 제3 삼분기 모 혈장 DNA 샘플의 계층적 클러스터링 분석을 나타낸다.
도 77a 내지 도 77d는 본 발명의 실시형태에 따른 자간전증 및 정상혈압 모 혈장 DNA 샘플에서 4가지 유형의 단편 단부 사이의 T 세포 기여도를 나타낸다.
도 78은 본 발명의 실시형태에 따른 임신-연관 장애의 우도를 결정하기 위해 태아를 임신한 여성으로부터 얻은 생물학적 샘플을 분석하는 방법을 나타낸다.
도 79는 본 발명의 실시형태에 따른 반복부-연관 질환에 대한 태아의 모계 유전을 추론하는 예시를 나타낸다.
도 80은 본 발명의 실시형태에 따른 반복부-연관 질환에 대한 태아의 부계 유전을 추론하는 예시를 나타낸다.
도 81, 도 82 및 도 83은 반복 확장 질환의 예를 나타낸 표이다.
도 84는 본 발명의 실시형태에 따른 태아의 반복 확장 검출 및 반복부-연관 메틸화 결정에 대한 예를 나타내는 표이다.
도 85는 본 발명의 실시형태에 따른 태아에서 유전적 장애의 우도를 결정하기 위해 태아를 임신한 여성으로부터 얻은 생물학적 샘플을 분석하는 방법을 나타낸다.
도 86은 본 발명의 실시형태에 따른 아버지를 결정하기 위한 태아를 임신한 여성으로부터 얻은 생물학적 샘플의 분석 방법을 나타낸다.
도 87은 크기 선택 후 2개의 대표적인 혈장 DNA 분자에 대한 메틸화 패턴을 나타낸다.
도 88은 본 발명의 실시형태에 따른 크기 선택이 있거나 없는 샘플에 대한 시퀀싱 정보의 표이다.
도 89a 및 도 89b는 본 발명의 실시형태에 따른 비드-기반 크기 선택이 있거나 없는 샘플에 대한 혈장 DNA 크기 프로파일의 그래프를 나타낸다.
도 90a 및 도 90b는 본 발명의 실시형태에 따른 크기 선택이 있는 샘플에서 태아 DNA 분자와 모 DNA 분자 사이의 크기 프로파일을 나타낸다.
도 91은 본 발명의 실시형태에 따른 크기 선택이 있는 샘플과 크기 선택이 없는 샘플 사이에서 정보가 있는 SNP를 보유하는 혈장 DNA 분자의 수에 대한 통계 표이다.
도 92는 본 발명의 실시형태에 따른 크기 선택된 혈장 DNA 샘플 및 크기 선택이 없는 혈장 DNA 샘플에서의 메틸화 수준의 표이다.
도 93은 본 발명의 실시형태에 따른 모- 또는 태아-특이적 세포유리 DNA 분자에서 메틸화 수준의 표이다.
도 94는 본 발명의 실시형태에 따른 크기 선택이 있거나 없는 샘플의 상위 10개 단부 모티프의 표이다.
도 95는 긴 혈장 DNA 분자가 본 발명의 실시형태에 따른 조직 기원 분석의 성능을 향상시킨다는 것을 나타낸 리시버 작동 특징(ROC) 그래프이다.
도 96은 본 발명의 실시형태에 따른 혈장 DNA 분자에 대한 에어포트 시퀀싱의 원리를 예시한다.
도 97은 본 발명의 실시형태에 따른 특정 크기 범위의 혈장 DNA 분자의 백분율 및 이들의 상응하는 메틸화 수준의 표이다.
도 98은 본 발명의 실시형태에 따른 상이한 크기에 따른 크기 분포 및 메틸화 패턴의 그래프이다.
도 99는 본 발명의 실시형태에 따른 나노기공 시퀀싱을 사용하여 결정된 태아 DNA 분율의 표이다.
도 100은 본 발명의 실시형태에 따른 태아-특이적 DNA 분자와 모-특이적 DNA 분자 사이의 메틸화 수준의 표이다.
도 101은 본 발명의 실시형태에 따른 태아 DNA 분자 및 모 DNA 분자에 대한 특정 크기 범위의 혈장 DNA 분자의 백분율 및 이들의 상응하는 메틸화 수준의 표이다.
도 102a 및 도 102b는 본 발명의 실시형태에 따른 나노기공 시퀀싱에 의해 결정된 태아 DNA 분자 및 모 DNA 분자의 크기 분포의 그래프이다.
도 103은 본 발명의 실시형태에 따른 단일 정보 SNP 및 2개의 정보 SNP에 기초한 태아 DNA 분자와 모 DNA 분자 사이의 메틸화 수준의 차이를 나타내는 그래프이다.
도 104는 본 발명의 실시형태에 따른 태아 DNA 분자와 모 DNA 분자 사이의 메틸화 수준의 차이의 표이다.
도 105는 본 발명의 실시형태에 따른 측정 시스템을 예시한다.
도 106은 본 발명의 실시형태에 따른 컴퓨터 시스템을 나타낸다.

용어

"조직"은 임신한 대상체 또는 그녀의 태아에서 기능 단위로서 함께 군화되는 세포 군에 상응한다. 하나 이상의 유형의 세포가 단일 조직에서 발견될 수 있다. 상이한 유형의 조직은 상이한 유형의 세포(예를 들어, 간세포, 폐포 세포 또는 혈액 세포)로 구성될 수 있을 뿐만 아니라, 상이한 유기체(엄마 대 태아; 이식을 받은 임신한 대상체에서의 조직; 미생물 또는 바이러스에 의해 감염된 임신한 유기체의 조직)로부터의 조직에 상응할 수 있다. "참조 조직"은 조직 특이적 메틸화 수준을 결정하는 데 사용되는 조직에 상응할 수 있다. 상이한 임신한 개체 또는 이의 태아로부터의 동일한 조직 유형의 다수의 샘플은 그 조직 유형의 조직 특이적 메틸화 수준을 결정하는 데 사용될 수 있다.

"생물학적 샘플"은 임신한 대상체(예를 들어, 인간 (또는 다른 동물), 예컨대, 임신한 여성, 장애를 가진 사람, 또는 장애를 갖고 있는 것으로 의심되는 임신한 사람, 임신한 장기 이식 수혜자, 또는 장기에 관여되는 질환 과정(예를 들어, 심근 경색에서 심장, 뇌졸중에서 뇌, 또는 빈혈에서 조혈계)을 갖고 있는 것으로 의심되는 임신한 대상체)로부터 채취되고 하나 이상의 관심 핵산 분자(들)를 함유하는 임의의 샘플을 지칭한다. 생물학적 샘플은 체액, 예컨대 혈액, 혈장, 혈청, 소변, 질액, 질 플러싱 유체(vaginal flushing fluid), 흉막액(pleural fluid), 복수(ascitic fluid), 뇌척수액, 침, 땀, 눈물, 가래, 기관지폐포 세척액, 유두로부터의 배출액, 신체(예를 들어, 갑상선, 유방)의 상이한 부분들로부터의 흡인액, 안내 유체(intraocular fluids) (예를 들어, 안방수(aqueous humor)) 등일 수 있다. 대변 샘플이 사용될 수도 있다. 다양한 구현예에서, 세포유리 DNA에 대해 농축되었던 생물학적 샘플(예를 들어, 원심분리 프로토콜을 통해 수득된 혈장 샘플) 내의 대부분의 DNA는 세포유리일 수 있으며, 예를 들어, 50%, 60%, 70%, 80%, 90%, 95% 또는 99% 초과의 DNA가 세포유리일 수 있다. 원심분리 프로토콜은 예를 들어, 3,000 g x 10분, 유체 부분을 수득하고 잔여 세포를 제거하기 위해 예를 들어, 30,000 g에서 또 다른 10분 동안 재-원심분리할 수 있다. 생물학적 샘플의 분석의 일부로서, 통계적으로 유의미한 수의 세포유리 DNA 분자가 생물학적 샘플을 위해서 (예를 들어, 정확한 측정치를 제공하기 위해서) 분석될 수 있다. 일부 실시형태에서, 적어도 1,000개의 세포유리 DNA 분자가 분석된다. 다른 실시형태에서, 적어도 10,000개 또는 50,000개 또는 100,000개 또는 500,000개 또는 1,000,000개 또는 5,000,000개 이상의 세포유리 DNA 분자가 분석될 수 있다. 서열 판독물의 적어도 동일한 수가 분석될 수 있다.

"서열 판독물"은 핵산 분자 중 임의의 일부 또는 전부로부터 시퀀싱된 뉴클레오타이드 스트링(string)을 지칭한다. 예를 들어, 서열 판독물은 생물학적 샘플에 존재하는 핵산 단편으로부터 시퀀싱 뉴클레오타이드(예를 들어, 20 내지 150개 뉴클레오타이드)의 짧은 열, 핵산 단편 중 하나의 단부 또는 두 단부 모두에서 뉴클레오타이드의 짧은 열, 또는 전체 핵산 단편의 시퀀싱일 수 있다. 서열 판독물은 여러 가지 방식으로, 예를 들어 시퀀싱 기술을 사용하거나, 예컨대, 혼성화 어레이 또는 마이크로어레이에서 사용될 수 있는 바와 같은 포착 프로브에서 프로브를 사용하거나, 또는 증폭 기술, 예컨대 중합효소 연쇄 반응(PCR) 또는 단일 프라이머를 사용하는 선형 증폭 또는 등온 증폭에서 수득할 수 있다. 생물학적 샘플의 분석의 일부로서, 통계학적으로 유의미한 수의 서열 판독물이 분석될 수 있고, 예를 들어, 적어도 1,000개의 서열 판독물이 분석될 수 있다. 다른 실시예에서, 적어도 10,000개 또는 50,000개 또는 100,000개 또는 500,000개 또는 1,000,000개 또는 5,000,000개의 세포유리 DNA 분자, 또는 그 이상이 분석될 수 있다.

"부위"("게놈 부위"로도 지칭됨)는 단일 부위에 상응하며, 이는 단일 염기 위치 또는 상관된 염기 위치의 군, 예를 들어 상관된 염기 위치의 CpG 부위 또는 더 큰 군일 수 있다. "유전자좌"는 다수의 부위들을 포함하는 영역에 상응할 수 있다. 유전자좌는 하나의 부위만을 포함할 수 있으며, 이는 맥락상 상기 유전자좌를 부위와 동등한 것이 되도록 한다.

"메틸화 상태"는 주어진 부위에서의 메틸화의 상태를 지칭한다. 예를 들어, 부위는 메틸화, 비메틸화, 또는 일부 경우에 비결정될 수 있다.

각각의 게놈 부위(예를 들어, CpG 부위)에 대한 "메틸화 지수"는 (예를 들어, 서열 판독물 또는 프로브로부터 결정된 바와 같은) DNA 단편의 비율을 지칭할 수 있고, 이는 그 부위를 커버하는 판독물의 총 수에 걸친 그 부위에서의 메틸화를 보여준다. "판독물"은 DNA 단편으로부터 얻은 정보(예를 들어, 한 부위에서의 메틸화 상태)에 상응할 수 있다. 판독물은 하나 이상의 부위에서 특정 메틸화 상태의 DNA 단편에 우선적으로 혼성화하는 시약(예를 들어, 프라이머 또는 프로브)을 사용하여 수득될 수 있다. 전형적으로, 이러한 시약은 DNA 분자의 메틸화 상태에 따라 이들 분자를 차별적으로 변형시키거나 차별적으로 인지하는 과정, 예를 들어 바이설파이트 전환, 또는 메틸화 민감성 제한 효소, 또는 메틸화 결합 단백질, 또는 항-메틸시토신 항체, 또는 메틸시토신 및 하이드록시메틸시토신을 인식하는 단일 분자 시퀀싱 기법(예를 들어, 단일 분자 실시간 시퀀싱 및 나노기공 시퀀싱(예를 들어, Oxford Nanopore Technologies로부터의))으로 처리한 후 적용된다.

영역의 "메틸화 밀도"는 영역 내의 부위를 커버하는 판독물의 총 수로 나눈 메틸화를 나타내는 영역 내의 부위에서의 판독물의 수를 지칭할 수 있다. 상기 부위는 특정한 특징을 가질 수 있고 예를 들어 CpG 부위일 수 있다. 따라서, 영역의 "CpG 메틸화 밀도"는 영역 내의 CpG 부위(예를 들어, 특정 CpG 부위, CpG 섬 내의 CpG 부위, 또는 더 큰 영역)를 커버하는 총 판독물 수로 나눈 CpG 메틸화를 나타내는 판독물의 수를 지칭할 수 있다. 예를 들어, 인간 게놈에서 각각의 100-kb 빈(bin)에 대한 메틸화 밀도는, 100-kb 영역으로 매핑된 서열 판독물에 의해 커버된 모든 CpG 부위의 비율로서 CpG 부위에서 바이설파이트 처리 후 전환되지 않은 시토신(메틸화된 시토신에 상응함)의 총 수로부터 결정될 수 있다. 이 분석은 다른 빈 크기, 예를 들어 500 bp, 5 kb, 10 kb, 50-kb 또는 1-Mb 등에 대해 또한 수행될 수 있다. 영역은 전체 게놈 또는 염색체 또는 염색체의 일부(예를 들어, 염색체 아암(arm))일 수 있다. CpG 부위의 메틸화 지수는, 영역이 해당 CpG 부위만 포함할 때, 상기 영역에 대한 메틸화 밀도와 동일하다. "메틸화된 시토신의 비율"은, 영역에서 분석된 시토신 잔기, 즉, CpG 맥락 외부의 시토신을 포함하여 이들의 총 수에 걸쳐 메틸화된(예를 들어, 바이설파이트 전환 후 전환되지 않는) 것으로 보이는 시토신 부위인 "C"의 수를 지칭할 수 있다. 메틸화 지수, 메틸화 밀도, 하나 이상의 부위에서 메틸화된 분자의 수치 및 하나 이상의 부위에서의 메틸화된 분자(시토신)의 비율은 "메틸화 수준"의 예이다. 바이설파이트 전환 외에도, 비제한적으로 메틸화 상태에 민감한 효소(예를 들어, 메틸화 민감성 제한 효소), 메틸화 결합 단백질, 메틸화 상태에 민감한 플랫폼을 사용하는 단일 분자 시퀀싱(예를 들어, 나노기공 시퀀싱(문헌[Schreiber et al. Proc Natl Acad Sci 2013; 110: 18910-18915]) 및 단일 분자 실시간 시퀀싱(예를 들어, Pacific Biosciences로부터의 것)(문헌[Flusberg et al. Nat Methods 2010; 7: 461-465]))을 포함하여 당업자에게 알려진 다른 과정이 DNA 분자의 메틸화 상태에 대한 정보를 얻는 데 사용될 수 있다.

"메틸롬(methylome)"은 게놈에서 복수의 부위 또는 유전자좌에서의 DNA 메틸화의 양의 측정치를 제공한다. 메틸롬은 모든 게놈, 게놈의 실질적인 부분, 또는 게놈의 비교적 작은 부위(들)에 상응할 수 있다.

"메틸화 프로필"은 다수의 부위 또는 영역에 대한 DNA 또는 RNA 메틸화와 관련된 정보를 포함한다. DNA 메틸화와 관련된 정보는 CpG 부위의 메틸화 지수, 영역에서의 CpG 부위의 메틸화 밀도(생략하여 MD), 인접 영역에 걸친 CpG 부위의 분포, 1개 초과의 CpG 부위를 함유하는 영역 내의 각각의 개별 CpG 부위에 대한 메틸화의 패턴 또는 수준 및 비-CpG 메틸화를 포함할 수 있지만, 이들로 제한되지는 않는다. 일 실시형태에서, 메틸화 프로필은 하나 초과의 유형의 염기(예를 들어, 시토신 또는 아데닌)의 메틸화 또는 비메틸화의 패턴을 포함할 수 있다. 게놈의 실질적인 부분의 메틸화 프로필은 메틸롬과 동등한 것으로 여겨질 수 있다. 포유류 게놈에서 "DNA 메틸화"는 전형적으로, CpG 디뉴클레오타이드 중에서 시토신 잔기의 5' 탄소에 대한 메틸기의 첨가(즉, 5-메틸시토신)를 지칭한다. DNA 메틸화는 다른 콘텍스트, 예를 들어 CHG 및 CHH의 시토신에서 발생할 수 있으며, 여기서 H는 아데닌, 시토신 또는 티민이다. 시토신 메틸화는 또한 5-하이드록시메틸시토신의 형태일 수 있다. N⁶-메틸아데닌과 같은 비시토신 메틸화가 또한 보고되었다.

"메틸화 패턴"은 메틸화된 염기 및 비메틸화된 염기의 순서를 지칭한다. 예를 들어, 메틸화 패턴은 단일 DNA 가닥, 단일 이중 가닥 DNA 분자 또는 다른 유형의 핵산 분자에 기초한 메틸화된 염기의 순서일 수 있다. 일례로서, 3개의 연속적인 CpG 부위는 하기 메틸화 패턴 중 임의의 패턴을 가질 수 있다: UUU, MMM, UMM, UMU, UUM, MUM, MUU, 또는 MMU, 여기서 "U"는 비메틸화된 부위를 나타내고, "M"은 메틸화된 부위를 나타낸다. 이 개념을 비제한적인 예로서 메틸화를 포함하는 염기 변형으로 확장할 때, 변형된 염기 및 비변형된 염기의 순서를 지칭하는 용어 "변형 패턴"을 사용할 것이다. 예를 들어, 변형 패턴은 단일 DNA 가닥, 단일 이중 가닥 DNA 분자 또는 다른 유형의 핵산 분자에 기초한 변형된 염기의 순서일 수 있다. 일례로서, 3개의 연속적인 잠재적으로 변형 가능한 부위는 임의의 하기 변형 패턴을 가질 수 있다: UUU, MMM, UMM, UMU, UUM, MUM, MUU, 또는 MMU, 여기서 "U"는 비변형된 부위를 나타내고, "M"은 변형된 부위를 나타낸다. 메틸화에 기초하지 않은 염기 변형의 하나의 예는 8-옥소-구아닌에서와 같은 산화 변경이다.

용어 "과메틸화된" 및 "저메틸화된"는 단일 분자 메틸화 수준에 의해 측정된 바와 같은 단일 DNA 분자의 메틸화 밀도, 예를 들어 분자 내의 메틸화 가능한 염기 또는 뉴클레오타이드의 총 수로 나눈 그 분자 내의 메틸화된 염기 또는 뉴클레오타이드의 수를 지칭할 수 있다. 과메틸화된 분자는 단일 분자 메틸화 수준이 분야마다 한정될 수 있는 한계치이거나 이보다 높은 것이다. 한계치는 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% 또는 95%일 수 있다. 저메틸화된 분자는 단일 분자 메틸화 수준이 분야마다 한정될 수 있고, 분야마다 변할 수 있는 한계치이거나 이보다 낮은 것이다. 한계치는 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% 또는 95%일 수 있다.

용어 "과메틸화된" 및 "저메틸화된"은 이들 분자의 다중 분자 메틸화 수준에 의해 측정된 바와 같은 DNA 분자의 집단의 메틸화 수준을 또한 지칭할 수 있다. 분자의 과메틸화된 집단은 다중 분자 메틸화 수준이 분야마다 한정될 수 있고, 분야마다 변할 수 있는 한계치이거나 이보다 높은 것이다. 한계치는 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% 또는 95%일 수 있다. 분자의 저메틸화된 집단은 다중 분자 메틸화 수준이 분야마다 한정될 수 있는 한계치이거나 이보다 낮은 것이다. 한계치는 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% 및 95%일 수 있다. 일 실시형태에서, 분자의 집단은 하나 이상의 선택된 게놈 영역에 정렬될 수 있다. 일 실시형태에서, 선택된 게놈 영역(들)은 유전 장애, 각인 장애, 대사 장애 또는 신경학적 장애와 같은 질환과 관련될 수 있다. 선택된 게놈 영역(들)은 50개의 뉴클레오타이드(nt), 100 nt, 200 nt, 300 nt, 500 nt, 1000 nt, 2 knt, 5 knt, 10 knt, 20 knt, 30 knt, 40 knt, 50 knt, 60 knt, 70 knt, 80 knt, 90 knt, 100 knt, 200 knt, 300 knt, 400 knt, 500 knt, 또는 1 Mnt의 길이를 가질 수 있다.

용어 "시퀀싱 깊이"는 유전자좌가 그 유전자좌에 정렬된 서열 판독물에 의해 커버되는 횟수를 지칭한다. 유전자좌는 뉴클레오타이드만큼 작거나, 염색체 아암만큼 크거나, 전체 게놈만큼 클 수 있다. 시퀀싱 깊이는 50x, 100x 등으로서 표현될 수 있고, 여기서 "x"는 유전자좌가 서열 판독물로 커버되는 횟수를 지칭한다. 시퀀싱 깊이는 다수의 유전자좌 또는 전체 게놈에 또한 적용될 수 있고, 이 경우 x는 유전자좌 또는 반수체 게놈, 또는 전체 게놈이 각각 시퀀싱되는 평균 횟수를 지칭할 수 있다. 울트라-딥(ultra-deep) 시퀀싱은 시퀀싱 깊이가 적어도 100x인 것을 지칭할 수 있다.

"보정 샘플 "는 임상 관련 DNA (예를 들어, 조직 특이적 DNA 분율)의 분획 농도가 알려지거나 보정 방법을 통해, 예를 들어 조직에 특이적인 대립형질을 사용하여 결정된 생물학적 샘플에 상응할 수 있고, 예컨대, 임신한 대상체에서의 이식의 경우 기증자의 게놈에는 있지만 수혜자의 게놈에는 없는 대립형질이 이식된 장기의 마커로 사용될 수 있다. 또 다른 예로서, 보정 샘플은, 단부 모티프가 결정될 수 있는 샘플에 상응할 수 있다. 보정 샘플은 두 목적 모두를 위해 사용될 수 있다.

"보정 데이터 포인트 "는 "보정값 "및 임상 관련 DNA (예를 들어, 특정 조직 유형의 DNA)의 측정되거나 알려진 분획 농도를 포함한다. 보정값은 임상 관련 DNA의 분획 농도가 알려진 보정 샘플에 대해 결정된 바와 같이 상대 빈도(예를 들어, 집계값)로부터 결정될 수 있다. 보정 데이터 포인트는 여러 가지 방식으로, 예를 들어, 별개의 포인트로서 또는 보정 함수(보정 곡선 또는 보정 면이라고도 함)로서 정의될 수 있다. 보정 함수는 보정 데이터 포인트의 부가적인 수학적 변환으로부터 유래되었을 수 있다.

"분리값"은 2개의 값들, 예를 들어, 2개의 분율 기여도(fractional contribution), 또는 2개의 메틸화 수준들을 수반하는 차이 또는 비에 상응한다. 분리값은 단순한 차이 또는 비일 수 있다. 예로서, x/y의 정비(direct ratio)는 x/(x+y)와 같이 분리값이다. 분리값은 다른 인자, 예를 들어, 곱셈 인자(multiplicative factor)를 포함할 수 있다. 다른 예로서, 값들의 함수의 차이 또는 비, 예를 들어, 2개 값의 자연 로그(ln)의 차이 또는 비가 사용될 수 있다. 분리값은 차이 및 비를 포함할 수 있다.

"분리값" 및 "집계값" (예를 들어, 상대 빈도의 상기 값)은 상이한 분류 (상태) 사이에서 달라지는 샘플의 측정치를 제공하는 매개변수 (메트릭이라고도 함)의 2개의 예이므로, 상이한 분류를 결정하는 데 사용될 수 있다. 집계값은 분리값일 수 있고, 예를 들어, 클러스터링에서 수행될 수 있는 것처럼 샘플의 상대 빈도 세트와 상대 빈도의 참조 세트 간에 차이가 발생하는 경우이다.

본원에 사용된 바와 같이 용어 "분류"는 샘플의 특정한 특성과 연관된 임의의 수(들) 또는 다른 특징(들)을 지칭한다. 예를 들어, "+" 부호(또는 단어 "양성")는, 샘플이 결실 또는 증폭을 갖고 있는 것으로 분류됨을 의미할 수 있을 것이다. 분류는 2진(binary)(예를 들어, 양성 또는 음성)일 수 있거나, 더 많은 수준의 분류(예를 들어, 1 내지 10, 또는 0 내지 1의 규모)를 가질 수 있다.

본원에서 사용되는 바와 같은 용어 "매개변수"는 정량적 데이터 세트를 특징으로 하는 수치 값 및/또는 정량적 데이터 세트 사이의 수치 관계를 의미한다. 예를 들어, 제1 핵산 서열의 제1 양과 제2 핵산 서열의 제2 양 사이의 비율(또는 비율의 함수)이 매개변수이다.

용어 "크기 프로파일"은 일반적으로, 생물학적 샘플 내 DNA 단편의 크기에 관한 것이다. 크기 프로파일은 여러 가지 크기의 DNA 단편의 양의 분포를 제공하는 히스토그램일 수 있다. 다양한 통계학적 매개변수(크기 매개변수 또는 단지 매개변수로도 지칭됨)는 하나의 크기 프로파일을 또 다른 크기 프로파일과 구분하는 데 사용될 수 있다. 하나의 매개변수는 모든 DNA 단편에 대한, 또는 또 다른 크기 또는 범위의 DNA 단편에 대한 특정 크기 또는 크기 범위의 DNA 단편의 퍼센트이다.

용어 "컷오프" 및 "한계치"는 조작 시 사용되는 미리 결정된 수를 지칭한다. 예를 들어, 컷오프 크기는 단편이 배제되는 크기를 초과하는 크기를 지칭할 수 있다. 역치 값은 특정 분류가 적용되는 값의 초과 또는 미만 값일 수 있다. 이들 용어 중 어느 한 용어는 이들 맥락 중 어느 한 맥락으로 사용될 수 있다. 컷오프 또는 역치는 "참조값"일 수 있거나, 2개 이상의 분류 사이에 특정 분류를 나타내거나 구별하는 참조값으로부터 유래될 수 있다. 이러한 참조값은, 당업자에 의해 이해될 바와 같이, 다양한 방식으로 결정될 수 있다. 예를 들어, 메트릭은 상이한 공지의 분류를 갖는 대상체의 2개의 상이한 코호트에 대해 결정될 수 있고, 참조값은 한 분류의 대표값(예를 들어, 평균)으로서 또는 메트릭의 2개의 클러스터 사이에 있는 값(예를 들어, 원하는 감도 및 특이도를 얻기 위해 선택된 것)으로서 선택될 수 있다. 다른 예로서, 참조값은 샘플의 통계학적 분석 또는 모의에 기초하여 결정될 수 있다. 컷오프, 역치, 참조 등에 대한 특정 값은 목적하는 정확도(예를 들어, 감도 및 특이도)에 기초하여 결정될 수 있다.

"임신-연관된 장애"는 모 조직 및/또는 태아 조직에서의 유전자의 비정상적인 상대 발현 수준 및 어머니 및/또는 태아에서의 비정상적인 상대 발현 수준을 특징으로 하는 임의의 장애를 포함한다. 이러한 장애는 어머니의 자간전증(문헌[Kaartokallio et al. Sci Rep. 2015;5:14107; Medina-Bastidas et al. Int J Mol Sci. 2020;21:3597]), 자궁내 성장 제한(문헌[Faxen et al. Am J Perinatol. 1998;15:9-13; Medina-Bastidas et al. Int J Mol Sci. 2020;21:3597]), 칩습 태반, 조산(문헌[Enquobahrie et al. BMC Pregnancy Childbirth. 2009;9:56]), 신생아의 용혈성 질환, 태반 기능부전(문헌[Kelly et al. Endocrinology. 2017;158:743-755]), 태아 수종(문헌[Magor et al. Blood. 2015;125:2405-17]), 태아 기형(문헌[Slonim et al. Proc Natl Acad Sci USA. 2009;106:9425-9]), HELLP 증후군(문헌[Dijk et al. J Clin Invest. 2012;122:4003-4011]), 전신 홍반성 루프스(문헌[Hong et al. J Exp Med. 2019;216:1154-1169]) 및 다른 면역학적 질환을 포함하지만 이들로 제한되지 않는다.

약어 "bp"는 염기 쌍을 지칭한다. 일부 경우에, DNA 단편이 단일 가닥일 수 있고 염기 쌍을 포함하지 않지만, "bp"는 DNA 단편의 길이를 나타내도록 사용될 수 있다. 단일 가닥 DNA의 콘텍스트에서, "bp"는 뉴클레오타이드에서의 길이를 제공하는 것으로 해석될 수 있다.

약어 "nt"는 뉴클레오타이드를 지칭한다. 일부 경우에, "nt"는 염기 단위에서의 단일 가닥 DNA의 길이를 나타내도록 사용될 수 있다. 또한, "nt"는 분석되는 유전자좌의 상류 또는 다운스트림와 같은 상대 위치를 나타내도록 사용될 수 있다. 이중 가닥 DNA의 경우, "nt"는 문맥이 달리 명확하게 기재하지 않는 한 2개의 가닥 내의 뉴클레오타이드의 총 수 이외의 단일 가닥의 길이를 여전히 지칭할 수 있다. 기술적 개념화, 데이터 제시, 가공 및 분석에 관한 일부 콘텍스트에서, "nt" 및 "bp"는 상호교환적으로 사용될 수 있다.

용어 "기계 학습 모델"은 시험 데이터를 예측하기 위한 샘플 데이터(예를 들어, 훈련 데이터)의 사용에 기초한 모델을 포함할 수 있고, 이에 따라 감독된 학습을 포함할 수 있다. 기계 학습 모델은 대개 컴퓨터 또는 프로세서를 사용하여 개발된다. 기계 학습 모델은 통계 모델을 포함할 수 있다.

용어 "데이터 분석 프레임워크"는 입력으로 데이터를 취하고 이후 예측된 결과를 출력하는 알고리즘 및/또는 모델을 포함할 수 있다. "데이터 분석 프레임워크"의 예는 통계학적 모델, 수학적 모델, 기계 학습 모델, 다른 인공 지능 모델, 및 이들의 조합을 포함한다.

용어 "실시간 시퀀싱"은 시퀀싱에 관여된 반응의 진행 동안 데이터 수집 또는 모니터링을 수반하는 기법을 지칭할 수 있다. 예를 들어, 실시간 시퀀싱은 새로운 염기를 혼입하는 DNA 중합효소의 광학 모니터링 또는 필름화를 수반할 수 있다.

용어 "하위서열"은 핵산 분자에 상응하는 전체 서열보다 적은 염기의 스트링을 지칭할 수 있다. 예를 들어, 핵산 분자의 전체 서열이 5개 이상의 염기를 포함하는 경우 하위서열은 1, 2, 3 또는 4개의 염기를 포함할 수 있다. 일부 실시형태에서, 하위서열은 단위가 탠덤 직렬 방식으로 여러 번 반복되는 단위를 형성하는 염기의 스트링을 지칭할 수 있다. 예는 트리뉴클레오타이드 반복 장애와 연관된 유전자좌에서 반복되는 3-nt 단위 또는 하위서열, 미세부수체로서 5 내지 50회 반복되는 1-nt 내지 6-nt 단위 또는 하위서열, 미세부수체로서 5 내지 50회 반복되는 10-nt 내지 60-nt 단위 또는 하위 서열 또는 Alu 반복부와 같은 다른 유전 요소를 포함한다.

용어 "약" 또는 "대략"은 당업자에 의해 결정된 바와 같은 특정 값에 대한 허용 가능한 오차 범위 내를 의미할 수 있으며, 이는 부분적으로는 값이 어떻게 측정되거나 결정되는지, 즉 측정 시스템의 한계에 의존할 수 있다. 예를 들어, "약"은 당업계의 관행에 따라 1 이내 또는 1 초과의 표준 편차를 의미할 수 있다. 대안적으로, "약"은 주어진 값의 20% 이하, 10% 이하, 5% 이하, 또는 1% 이하의 범위를 의미할 수 있다. 대안적으로, 특히 생물학적 시스템 또는 과정에 관하여, 용어 "약" 또는 "대략"은 값의 승수 이내, 5배 이내, 보다 바람직하게는 2배 이내를 의미할 수 있다. 특정 값이 본 출원 및 청구범위에 기재되어 있는 경우, 다르게 언급되지 않는 한, 특정 값에 대한 허용 가능한 오차 범위 내를 의미하는 용어 "약"이 추정되어야 한다. 용어 "약"은 당업자에 의해 보편적으로 이해되는 바와 같은 의미를 가질 수 있다. 용어 "약"은 ±10%를 지칭할 수 있다. 용어 "약"은 ±5%를 지칭할 수 있다.

값의 범위가 제공되는 경우, 문맥상 명백하게 다르게 나타내지 않는 한 해당 범위의 상한과 하한 사이에서 하한의 단위의 1/10까지 각각의 사잇값(intervening value)이 또한 구체적으로 개시되는 것으로 이해된다. 언급된 범위 내의 임의의 언급된 값 또는 사잇값과 해당 언급된 범위 내의 임의의 다른 언급된 값 또는 사잇값 사이의 각각의 더 작은 범위가 본 개시내용의 실시형태에 포함된다. 이들 더 작은 범위의 상한 및 하한은 독립적으로 그 범위에서 포함되거나 배제될 수 있고, 두 한계 중 어느 하나 또는 둘 다 더 작은 범위에 포함되거나, 둘 다 더 작은 범위에 포함되지 않는 각각의 범위가 또한 언급된 범위에서 임의의 구체적으로 배제된 한계에 적용된다. 언급된 범위가 한계 중 하나 또는 둘 모두를 포함하는 경우, 이들 포함된 한계 중 하나 또는 둘 모두를 배제하는 범위가 또한 본 개시내용에 포함된다.

표준 약어가 사용될 수 있다: 예를 들어, bp, 염기쌍(들); kb, 킬로베이스(들); pi, 피코리터(들); s 또는 sec, 초(들); min, 분(들); h 또는 hr, 시(들); aa, 아미노산(들); nt, 뉴클레오타이드(들); 등.

달리 정의되지 않는 한, 본원에 사용되는 모든 기술 및 과학 용어는 본 개시내용이 속한 당업자에 의해 통상적으로 이해되는 바와 동일한 의미를 갖는다. 본원에 기재된 것과 유사하거나 등가인 임의의 방법 및 물질이 본 개시내용의 실시형태의 실시 또는 시험에 사용될 수 있지만, 일부 잠재적이고 예시적인 방법 및 물질이 이제 기재될 수 있다.

상세한 설명

세포유리 DNA 분자의 분석은 종종 분석 기술의 한계로 인해 주로 짧은 세포유리 DNA 단편을 포함한다. Illumina 시퀀싱 기술을 사용하여 긴 DNA 분자에서 서열 정보를 얻는 제한된 능력이 마우스 세포유리 DNA의 최근 시퀀싱 결과에서 입증되었다(Serpas et al., Proc Natl Acad Sci USA. 2019;116:641-649). 야생형 마우스에서 Illumina 시퀀싱을 사용하여 시퀀싱된 DNA 분자의 0.02%만 600 bp 및 2000 bp 범위 내에 있었다. Illumina 시퀀싱을 위해 본래 준비되었던 DNA 라이브러리를 시퀀싱하기 위해 Pacific Biosciences의 단일 분자 실시간(SMRT) 기술(즉, PacBio SMRT 시퀀싱)을 사용해도 600 bp 내지 2000 bp 범위 내에 시퀀싱된 DNA 분자의 0.33%만 여전히 존재하였다. 이러한 보고된 데이터는 시퀀싱 단계가 원래 DNA 라이브러리에 존재하는 600 bp 및 2000 bp 범위 내에서 긴 DNA 분자의 93%를 잃을 것임을 시사하였다.

본 발명자들은 상기에 기재된 긴 DNA 분자를 증폭할 때 PCR의 한계로 인해 DNA 라이브러리 준비 단계에서 긴 세포유리 DNA 분자의 상당 부분이 손실될 것이라고 추측하였다. 자르(Jahr) 등은 겔 전기영동을 사용하여 많은 킬로베이스, 예를 들어 약 10,000의 대형 단편의 존재를 보고하였다(Jahr et al. Cancer Res. 2001;61:1659-65). 그러나 겔 전기영동 영상에 나타난 밴드는 후생적 정보를 제공하는 것은 고사하고 겔에서 이러한 분자의 서열 정보를 쉽게 제공하지 못할 것이다.

본 발명자들은 이전에 Oxford Nanopore Technologies 시퀀싱 플랫폼을 사용하여 모 혈장에서 추출한 세포유리 DNA를 연구하였다(Cheng et al Clin Chem. 2015;61:1305-6). 본 발명자들은 1 kb(0.06% 내지 0.3%)를 초과하는 긴 혈장 DNA의 매우 작은 비율을 관찰하였다. 본 발명자들은 이러한 낮은 백분율이 이 플랫폼의 낮은 시퀀싱 정확도의 결과일 수 있다고 가정하였다.

세포유리 DNA의 이러한 분야에서 대부분의 연구는 짧은 DNA 분자(예를 들어, 600 bp 미만)에 초점을 맞췄다. 긴 세포유리 DNA 분자의 유전적 및 후성적 정보를 포함한 특성은 아직 밝혀지지 않았다. 본 개시내용은 유전적 및 후성적 정보의 해독을 포함한 긴 세포유리 DNA 분자를 분석하는 체계적인 방법 및 비침습적 산전 검사, 예컨대, 비제한적으로 단일 유전자 장애의 비침습적 검출, 태아 게놈의 설명(예를 들어, 비침습적 전체 태아 게놈 시퀀싱), 게놈 전체 수준에서 새로운 돌연변이의 검출 및 임신-연관 장애, 예컨대, 자간전증 및 조산의 검출/모니터링에서의 임상적 활용을 제공하였다.

I. 세포유리 DNA 크기 분석

임신한 여성으로부터 얻은 세포유리 DNA 샘플을 시퀀싱한 결과 상당 부분의 DNA 단편은 긴 것으로 밝혀졌다. 긴 세포유리 DNA 단편의 정확한 시퀀싱이 입증되었다. 이러한 긴 세포유리 DNA 분자의 크기 프로파일을 분석하였다. 태아 긴 세포유리 DNA 분자와 모체의 긴 세포유리 DNA 분자의 양을 비교하였다. 긴 세포유리 DNA 분자는 참조 게놈에 더 정확하게 정렬될 수 있다. 긴 세포유리 DNA 분자는 일배체형 유전을 결정하는 데 사용될 수 있다.

제3 삼분기의 임신한 여성의 혈장 DNA 샘플을 PacBio SMRT 시퀀싱을 사용하여 분석하였다. 이중 가닥 세포유리 DNA 분자를 헤어핀 어댑터로 결찰하고, 제로-모드 도파관 및 단일 중합효소 분자를 활용하여 단일 분자 판독 시간 시퀀싱을 수행하였다(문헌[Eid et al. Science. 2009;323:133-8]).

본 발명자들은 11억 개의 하위판독물을 시퀀싱하였고, 그 중 6억 5,930만 개의 하위판독물을 인간 참조 게놈(hg19)에 정렬할 수 있다. 하위판독물은 460만 개의 PacBio Single Molecular Real-Time(SMRT) 시퀀싱 웰로부터 생성되었고, 이들은 인간 참조 게놈에 정렬될 수 있는 적어도 하나의 하위판독물을 함유하였다. 평균적으로, SMRT 웰에서의 각각의 분자는 평균 143배로 시퀀싱되었다. 이 예에서, 450만 개의 순환 공통 서열(CCS: Circular Consensus Sequence)가 있었으며 이는 다운스트림 분석에 사용될 수 있는 450만 개의 세포유리 DNA 분자를 시사한다. 각각의 세포유리 DNA의 크기는 확인된 염기의 수를 계수하여 CCS에서 결정되었다.

도 1a 및 도 1b는 0 내지 20 kb의 세포유리 DNA의 크기 분포를 나타낸다. y-축은 빈도를 나타낸다. x-축은 선형 배율(도 1a) 또는 로그 배율(도 1b)에서 0 내지 20 kb의 염기쌍 크기를 나타낸다. 시퀀싱은 전체 길이의 DNA 분자를 통해 수행되기 때문에 각 DNA 분자의 크기는 하위판독물 또는 CCS의 뉴클레오타이드 수를 계수하여 직접 결정될 수 있다. DNA 단편 크기 측정은 DNA 단편의 전장을 통해 판독할 수 있는 임의의 시퀀싱 플랫폼을 사용하여 달성할 수 있으며, 단일 분자 시퀀서의 사용으로 제한되지 않는다. 예를 들어, Sanger 시퀀서는 800 bp를 판독할 수 있다. Illumina 플랫폼과 같은 짧은-판독물 시퀀싱은 250 bp를 통해 판독할 수 있다. Pacific Biosciences 및 Oxford Nanopore와 같은 단일 분자 시퀀서는 10,000 bp 초과를 판독할 수 있다. DNA 단편의 크기는 참조 게놈, 예를 들어, 인간 참조 게놈에 정렬한 후 결정할 수도 있다. DNA 단편의 크기는 페어드-엔드 시퀀싱에 이어 참조 게놈에 대한 정렬에 의해 결정될 수 있다. 도 1b는 롱-테일 패턴을 나타낸다. 450만 개의 CCS 중에서, 200 bp를 초과하는 세포유리 DNA는 22.5%였고, 300 bp를 초과하는 것은 19.0%였고, 400 bp를 초과하는 것은 11.8%였고, 500 bp를 초과하는 것은 10.6%였고, 600 bp를 초과하는 것은 8.9%였고, 1 kb를 초과하는 것은 6.4%였고, 2 kb를 초과하는 것은 3.5%였고, 3 kb를 초과하는 것은 1.9%였고, 4 kb를 초과하는 것은 0.9%였고, 10 kb를 초과하는 것은 0.04%였다. 현재 PacBio SMRT 결과에서 관찰된 가장 긴 것은 29,804 bp였다.

임신한 대상체의 한 혈장 DNA도 PCR 기반 라이브러리 준비 프로토콜을 사용하여 Illumina 시퀀싱 플랫폼에서 시퀀싱되었다(Lun et al. Clin Chem. 2013;59:1583-94). 1,820만 개의 페어드-엔드 판독물 중에서, 200 bp를 초과하는 세포유리 DNA는 5.3%였고, 300 bp를 초과하는 것은 2.0%였고, 400 bp를 초과하는 것은 0.3%였고, 500 bp를 초과하는 것은 0.2%였고, 600 bp를 초과하는 것은 0.2%였다. 비교로서, 본 발명자들은 5명의 임신한 대상체로부터 단일 분자 실시간 시퀀싱 데이터(즉, 총 440만 CCS)를 집계하여 크기 프로파일을 분석하였다. 본 발명자들은 Illumina 시퀀싱 플랫폼에서 얻은 대응물(0.2%)과 비교하여 600 bp(28.56%)보다 큰 혈장 DNA 분자를 더 많이 관찰했다. 이러한 결과는 PacBio SMRT 시퀀싱이 143배 더 긴 DNA 분자(600 bp 초과)를 달성할 수 있음을 시사한다. 본 발명자들은 단일 분자 실시간 시퀀싱을 사용하여, 3 kb보다 큰 혈장 DNA 분자의 4.77%를 얻을 수 있지만 Illumina 시퀀싱 플랫폼에서는 판독이 없었다.

Oxford Nanopore Technologies 시퀀싱 플랫폼(Cheng et al Clin Chem. 2015;61:1305-6)을 사용하여 1 kb(0.06% 내지 0.3%)를 초과하는 긴 혈장 DNA 분자의 매우 작은 비율을 나타내는 이전 보고서와 대조적으로, 본 발명자들은 1 kb(6.4%)에 걸쳐 21배 더 많은 혈장 DNA를 얻을 수 있었는데, 이는 PacBio SMRT 시퀀싱이 긴 DNA 집단에서 서열 정보를 얻는 데 훨씬 더 효율적임을 입증하였다.

Illumina 시퀀싱 플랫폼과 같은 페어드-엔드 짧은 판독물 시퀀싱과 비교할 때, PacBio SMRT 기술과 같은 긴 판독물 시퀀싱 기술은 긴 DNA 단편의 특성(예를 들어, 길이)을 결정하는 데 있어 많은 이점을 갖는다. 예를 들어, 긴 판독물은 일반적으로 인간 참조 게놈(예를 들어, hg19)에 더 정확하게 정렬할 수 있도록 한다. 긴 판독물 기술을 사용하면 시퀀싱된 뉴클레오타이드의 수를 직접 계수하여 혈장 DNA 분자의 길이를 정확하게 결정할 수도 있다. 대조적으로, 페어드-엔드 짧은 판독물 기반 혈장 DNA 크기 추정은 정렬된 페어드-엔드 판독물 최외곽 좌표를 사용하여 혈장 DNA 분자의 크기를 추론하는 간접적인 방법이다. 이러한 간접 접근 방식의 경우, 정렬 오류로 인해 정확한 크기 감소가 발생한다. 이와 관련하여 페어드-엔드 판독물 사이의 크기 범위가 증가하면 정렬 오류 가능성이 높아진다.

도 2a 및 도 2b는 0 내지 5 kb의 세포유리 DNA의 크기 분포를 나타낸다. y-축은 빈도를 나타낸다. x-축은 선형 배율(도 2a) 또는 로그 배율(도 2b)에서 0 내지 5 kb의 염기쌍 크기를 나타낸다. 주기적인 패턴으로 발생하는 일련의 주요 피크가 존재하였다. 이러한 주기적인 패턴은 1 kb 내지 2 kb 범위의 분자까지 확장되었다. 가장 높은 주파수(2.6%)를 가진 피크는 166 bp였으며 이는 Illumina 기술을 사용한 이전 발견과 일치하였다(Lo et al. Sci Transl Med. 2010;2:61ra91). 도 2b의 인접한 주요 피크 사이의 거리는 약 200 bp였으며, 이는 긴 세포유리 DNA 생성이 뉴클레오솜 구조도 포함할 것임을 시사한다.

도 3a 및 도 3b는 0 내지 400 kb의 세포유리 DNA의 크기 분포를 나타낸다. y-축은 빈도를 나타낸다. x-축은 선형 배율(도 3a) 또는 로그 배율(도 3b)에서 0 내지 400 kb의 염기쌍 크기를 나타낸다. 이전에 보고된(문헌[Lo et al. Sci Transl Med. 2010;2:61ra91]) 166 bp 미만의 분자에서 발생하는 166 bp 및 10 bp 주기성에서 가장 두드러진 피크를 갖는 특징적인 특징이 또한 본 개시내용에 따른 새로운 방법을 사용하여 재현 가능하다. 이러한 결과는 본 개시내용에 따른 단일 분자로부터 염기 서열을 계수하여 분자 크기를 결정하는 것이 신뢰할 수 있음을 시사하였다.

A. 태아 DNA 및 모 DNA에 대한 크기 분석

모 DNA 및 태아 DNA 단편의 크기를 분석하고 비교하였다. 일례로서, 1명의 임신한 여성의 버피 코트 DNA 및 이의 일치된 태반 DNA는 시퀀싱되어서 각각 59x 및 58x 반수체 게놈 커버리지를 얻었다. 본 발명자들은 어머니가 동형접합성이고 태아가 이형접합성인 총 822,409개의 정보가 있는 단일 염기 다형성(SNP)을 확인하였다. 태아-특이적 대립형질은 태아 게놈에는 존재하지만 모 게놈에는 없는 대립형질로 정의된다. 본 발명자들은 PacBio 시퀀싱을 통해 모 혈장(M13160)에서 2,652개의 태아-특이적 단편 및 24,837개의 공유된 단편(즉, 공유된 대립형질을 보유하는 단편; 주로 모체 기원)을 식별하였다. 태아 DNA 분율은 21.8%였다.

도 4a 및 도 4b는 공유 대립형질(공유)을 보유한 단편과 태아-특이적 대립형질(태아-특이적)을 보유한 단편 사이의 세포유리 DNA의 크기 분포를 나타낸다. x축은 선형 배율(도 4a) 또는 로그 배율(도 4b)에서 0 내지 20 kb의 염기쌍 크기를 나타낸다. 공유 대립형질(주로 모체 기원)과 태아-특이적 대립형질(태반 기원)을 보유하는 두 단편 모두 긴 꼬리 분포를 나타내었는데, 이는 태아 기원 및 모체 기원 모두에서 유래된 긴 DNA 분자의 존재를 시사한다. 크기가 2kb보다 큰 혈장 DNA 분자는 주로 모체 기원의 단편에 대해 22.6%였고, 태아 기원 단편의 경우 크기가 2kb보다 큰 혈장 DNA 분자는 8.5%였다. 이러한 결과는 태아 DNA 분자가 더 적은 긴 DNA 분자를 포함한다는 것을 시사하였다. 혈장 DNA의 태아 기원 및 모체 기원에 관한 이러한 SNP-기반 분석에 존재하는 긴 DNA의 백분율은 전체 크기 분석에서 관찰된 것보다 겉보기에는 훨씬 더 높았다. 이러한 불일치는 긴 DNA 분자가 짧은 것보다 하나 이상의 SNP를 포함할 가능성이 더 높기 때문에, 긴 DNA가 SNP 기반 분석에 유리하게 선택되기 때문일 수 있다. 본래 풀의 해당 긴 DNA 비율로부터 편향된 SNP로 태깅된 긴 DNA 분자의 상대적 비율은 해당 분자의 크기에 따라 결정된다. 그러한 태아-특이적 DNA 단편 중에서, 가장 긴 것은 16,186 bp였고, 공유 대립형질을 보유한 단편 중 가장 긴 것은 24,166 bp였다.

도 5a 및 도 5b는 공유 대립형질(공유)을 보유한 단편과 태아-특이적 대립형질(태아-특이적)을 보유한 단편 사이의 세포유리 DNA의 크기 분포를 나타낸다. x-축은 선형 배율(도 5a) 또는 로그 배율(도 5b)에서 0 내지 5 kb의 염기쌍 크기를 나타낸다. 태아-특이적 및 공유 DNA 단편 모두에 대해 2 kb 미만의 단편에 대해 주기적인 방식으로 발생하는 일련의 주요 피크가 존재하였다. 주요 피크는 아마도 뉴클레오솜 구조와 정렬될 가능성이 있다.

도 6a 및 도 6b는 공유 대립형질(공유)을 보유한 단편과 태아-특이적 대립형질(태아-특이적)을 보유한 단편 사이의 세포유리 DNA의 크기 분포를 나타낸다. x-축은 선형 배율(도 6a) 또는 로그 배율(도 6b)에서 0 내지 1 kb의 염기쌍 크기를 나타낸다. 태아-특이적 및 공유 DNA 단편 모두에 대해 1 kb 미만의 단편에 대해 주기적인 방식으로 발생하는 일련의 주요 피크가 존재하였다. 주요 피크는 아마도 뉴클레오솜 구조와 정렬될 가능성이 있다. 공유된 DNA 단편의 크기 프로파일의 좌측에 대한 태아 DNA 크기 프로파일의 관찰 가능한 이동이 있는 것으로 보이는데, 이는 태아 DNA가 모 DNA보다 더 짧은 DNA 분자를 포함할 것임을 시사한다.

도 7a 및 도 7b는 공유 대립형질(공유)을 보유한 단편과 태아-특이적 대립형질(태아-특이적)을 보유한 단편 사이의 세포유리 DNA의 크기 분포를 나타낸다. x-축은 선형 배율(도 7a) 또는 로그 배율(도 7b)에서 0 내지 400 kb의 염기쌍 크기를 나타낸다. 이전에 보고된(Lo et al. Sci Transl Med. 2010;2:61ra91) 166 bp 미만의 태아 분자 및 모 분자 둘 다에서 발생하는 166 bp 및 10 bp 주기성에서 가장 두드러진 피크를 갖는 특징적인 특징이 또한 본 개시내용에 따른 새로운 방법을 사용하여 재현 가능하다. 이러한 결과는 본 개시내용에 따른 단일 분자로부터 염기 서열을 계수하여 분자 크기를 결정하는 것이 신뢰할 수 있음을 시사하였다.

B. 크기 및 메틸화 분석

긴 세포유리 모 DNA 분자 및 태아 DNA 분자의 메틸화 수준을 분석하였다. 태아 DNA 분자의 메틸화 수준은 모 DNA 분자의 메틸화 수준보다 낮은 것으로 밝혀졌다.

PacBio SMRT 시퀀싱에서, DNA 중합효소는 형광 표지된 뉴클레오타이드를 상보적 가닥에 혼입하는 것을 매개한다. 펄스 간 지속 시간 및 펄스 폭을 포함하여 DNA 합성 중에 생성된 형광 펄스의 특징은 전문이 모든 목적을 위해서 본원에 인용되어 포함된 본 발명자들의 이전 개시내용(미국 출원 제16/995,607호, 출원일 2020년 8월 17일, 발명의 명칭"DETERMINATION OF BASE MODIFICATIONS OF NUCLEIC ACIDS")에 기재된 접근법을 사용하여 비제한적으로 5-메틸시토신과 같은 뉴클레오타이드 변형을 결정하는 데 사용할 수 있는 중합효소 동역학을 반영할 것이다.

실시형태에서, 본 발명자들은 각각 모-특이적 대립형질을 보유하는 95,210개의 단편 및 태아-특이적 대립형질을 보유하는 2,652개의 단편을 확인하였다. 모-특이적 대립형질은 본원에서 모 게놈에는 존재하지만 태아 게놈에는 존재하지 않는 대립형질로서 정의되며, 이는 어머니가 이형접합성이고 태아가 동형접합성인 SNP로부터 식별될 수 있다. 본 발명자들은 이 예에서 총 677,375개의 정보가 있는 SNP를 식별하였다. 본 발명자들은 각각의 세포유리 DNA 분자의 크기를 결정하였다. 일 실시형태에서, 게놈의 메틸화 상태가 가변적이기 때문에, 예를 들어, CpG 섬의 메틸화 수준은 일반적으로 CpG 섬이 없는 영역보다 낮기 때문에, 게놈 컨텍스트에 의해 도입된 가변성을 최소화하기 위해, 인 실리코에서 단편을 선택할 수 있는데, 이것은 1 kb보다 크고, 적어도 5개의 CpG 부위를 함유하고, 5% 미만의 CpG 밀도에 해당하고(즉, 분자의 CpG 부위 수를 그 분자의 총 길이로 나눈 값 0.05 미만), 다운스트림 분석을 위해서 사용되었다.

도 8은 모-특이적 대립형질을 보유하는 단편과 태아-특이적 대립형질을 보유하는 단편 사이의 단일 분자, 이중 가닥 DNA 메틸화 수준을 나타낸다. y축은 단일 분자, 이중 가닥 DNA 메틸화 수준을 백분율로 나타낸다. x축은 모-특이적 대립형질을 보유하는 단편 및 태아-특이적 대립형질을 보유하는 단편을 모두 나타낸다. 태아-특이적 대립형질(평균: 62.7%, 사분위 범위, IQR: 50.0% 내지 77.2%)을 보유하는 단편의 단일 분자, 이중 가닥 DNA 메틸화 수준은 모-특이적 대립형질을 보유한 단편의 대응물(평균: 72.7%; IQR: 60.6% 내지 83.3%)보다 낮다(P < 0.0001).

도 9a는 R 패키지(r-project.org/)에서 구현된 커널 밀도 추정에 의해 피팅된 단편의 단일 분자, 이중 가닥 DNA 메틸화 수준의 경험적 분포를 나타낸다. 빈도는 y축에 나타낸다. X축은 단일 분자, 이중 가닥 DNA 메틸화 수준을 백분율로 나타낸다. 태아-특이적 긴 DNA 단편의 분포는 모-특이적 단편의 좌측에 있는데, 이는 태아 DNA 분자에 존재하는 더 낮은 단일 분자, 이중 가닥 DNA 메틸화 수준을 시사한다.

도 9b는 단일 분자, 이중 가닥 DNA 메틸화 수준을 사용한 리시버 작동 특징(ROC) 분석을 나타낸다. y축은 감도를 나타낸다. x축은 특이도를 나타낸다. 단일 분자, 이중 가닥 DNA 메틸화 수준을 사용하여 ROC 분석을 수행하여 단일 분자 이중 가닥 DNA 메틸화 수준을 사용하여 태아 DNA 단편과 모 DNA 단편을 구별하는 능력을 조사하여, ROC 곡선 하 면적(AUC)이 0.62인 것을 발견하였는데, 이는 무작위 추측 결과 0.5보다 크다. 실시형태에서, 단일 분자에서 메틸화 상태의 순서, 변형된 염기와 게놈 좌표 사이의 상대 또는 절대 거리와 같은 메틸화 상태의 공간적 패턴을 사용하여 혈장 내의 단편에 대한 태아/모체 기원의 결정을 더욱 개선시킬 수 있다. 실시형태에서, 태반 기원(태아 기원)의 단편을 구별하는 분류 능력을 개선시키기 위해서 메틸화 패턴을 다른 단편화 매트릭(즉, DNA의 단편에 관한 매개변수), 예컨대, 비제한적으로 바람직한 단부(문헌[Chan et al. Proc Natl Acad Sci USA. 2016;113:E8159-8168]), 단부 모티프(문헌[Serpas et al. Proc Natl Acad Sci USA. 2019;116:641-649]), 크기 (문헌[Lo et al. Sci Transl Med. 2010;2:61ra]), 배향-인식(즉, 게놈 내의 특이적 요소, 예를 들어, 오픈 크로마틴 영역과 관련된 배향, 단편화 패턴(문헌[Sun et al. Genomes Res. 2019;29:418-427])), 위상적 형태(예를 들어, 선행 대 원형 DNA 분자(문헌[Ma et al. Clin Chem. 2019;65:1161-1170]))을 조합할 수 있다.

도 10a 및 도 10b는 태아 DNA 단편 및 모 DNA 단편 둘 다의 단일 분자, 이중 가닥 DNA 메틸화 수준이 단편 크기에 따라 달라짐을 나타낸다. y축은 단일 분자, 이중 가닥 DNA 메틸화 수준을 백분율로 나타낸다. x-축은 0 내지 20 kb 초과(도 10a) 및 0 내지 1 kb 초과(도 10b)의 크기를 나타낸다. 다른 한편, 태아-특이적 DNA 분자의 단일 분자, 이중 가닥 DNA 메틸화 수준은 일반적으로 긴 범위(도 10a) 및 짧은(도 10b) 범위 둘 다에서 모-특이적 DNA 분자의 메틸화 수준보다 낮았다. 이 발견은 짧은 DNA 분자의 경우 태아 DNA의 메틸화 수준이 임신한 여성의 혈장에서의 모 DNA보다 더 낮다는 현재의 지식과 일치하였다(문헌[Lun et al., Clin Chem. 2013;59:1583-94]).

실시형태에서, 태아 DNA 분자의 메틸화 수준이 모 DNA 분자의 메틸화 수준보다 상대적으로 낮기 때문에, 단일 분자, 이중 가닥 DNA 메틸화 수준이 특정 역치, 예컨대, 비제한적으로 80%, 70%, 60%, 50%, 40%, 30%, 20%, 10% 및 5% 미만인 분자를 선택하여, 혈장 DNA 풀에서 태아 기원의 세포유리 DNA 분자를 농축한다. 예를 들어, 태아 DNA 분율은 1 kb를 초과하는 단편의 경우 2.6%이다. 단일 분자, 이중 가닥 메틸화 수준이 50% 미만인 단편(1kb 초과)을 선택하면, 1 kb 초과의 추가로 선택된 것의 태아 DNA 분율은 5.6%로 증가할 것이다(즉, 115.4% 증가). 또 다른 예에서, 태아 DNA 분율은 200 bp 미만인 단편의 경우 26.2%이다. 단일 분자, 이중 가닥 메틸화 수준이 50% 미만인 단편(200 bp 초과)을 선택하면, 200 kb 초과의 추가로 선택된 것의 태아 DNA 분율은 41.6%(즉, 58.8%)로 증가할 것이다. 따라서, 태아 DNA를 농축하기 위해 단일 분자, 이중 가닥 DNA 메틸화 수준을 역치화하는 사용은 특정 상황에서 긴 DNA 분자에 대해 더 효과적일 것이다.

C. 긴 세포유리 DNA의 일배체형 및 메틸화

실시형태에서, 본 개시내용에 기재된 방법을 사용하여 각각의 단일 DNA 분자에 대한 염기 조성, 크기 및 염기 변형을 얻을 수 있다. 긴 세포유리 DNA 분자의 SNP 및 메틸화 정보는 일배체형분석에 사용할 수 있다. 본 개시내용에서 밝혀진 세포유리 DNA 풀에 존재하는 긴 DNA 분자의 사용은 공개된 방법(문헌[Edge et al. Genome Res 2017;27:801-812; Wenger et al. Nat Biotechnol. 2019;37:1155-1162])을 포함하지만 이들로 제한되지 않는 것에 따라서, 각각의 공통 서열에 존재하는 일배체형 정보를 레버리징함으로써 게놈에서의 변이체의 페이징을 허용할 것이다. 조직 DNA로부터 준비된 긴 DNA에 의존해야 하는 기존 연구와 달리 세포유리 DNA의 서열 정보에 따라 일배체형을 결정하는 구현. 게놈 영역 내의 일배체형은 때때로 일배체형 블록으로 지칭될 수 있다. 일배체형 블록은 페이징된 염색체에 대한 대립형질의 세트로 여겨질 수 있다. 일부 실시형태에서, 일배체형 블록은 염색체에서 물리적으로 연결된 2개의 대립형질을 지지하는 서열 정보의 세트뿐만 아니라 상이한 서열들 간의 대립형질 중첩 정보에 따라 가능한 길게 연장될 것이다.

도 11a 및 도 11b는 임신한 여성의 모 혈장 DNA에서 식별된 긴 태아-특이적 DNA 분자의 예를 나타낸다. 이러한 태아-특이적 DNA 단편 중에서, 본 발명자들은 16,186 bp인 하나의 분자를 사용하여 본 발명자들의 실시형태를 예시하는데, 이것은 인간 참조 게놈(chr10: 56282981-56299166)(도 11a)의 염색체 10 내의 영역에 정렬되고, 7개의 태아-특이적 대립형질을 보유하였다(도 11b). (Illumina 플랫폼을 사용하여) 모 게놈 및 태아 게놈의 심층 시퀀싱으로부터 추론된 대립형질 정보와 일치하는 7개의 태아-특이적 대립형질 중에 6개가 있었다(도 11b). 이의 메틸화 수준은 본 개시내용에 기재된 방법에 따라 27.1%로 결정되었으며(도 11b), 이는 모-특이적 단편의 평균 수준(72.7%)보다 훨씬 더 낮았다. 이러한 결과는 단일 분자, 이중 가닥 DNA 메틸화 패턴이 태아 기원과 모체 기원의 세포유리 DNA 분자를 구별하는 마커 역할을 할 것임을 시사하였다.

도 12a 및 도 12b는 임신한 여성의 모 혈장 DNA에서 식별된 공유 대립형질을 보유하는 긴 모 DNA 분자의 예를 나타낸다. 이러한 공유 대립형질을 보유한 단편 중에서, 가장 긴 단편은 24,166 bp였는데, 이는 인간 참조(chr6: 111074371-111098536)의 염색체 6 내의 영역에 정렬되었고(도 12a) 18개의 공유 대립형질을 보유하였다(도 12b). 모든 그러한 공유 대립형질은 (Illumina 플랫폼을 사용하여) 모 게놈 및 태아 게놈의 심층 시퀀싱으로부터 추론된 대립형질 정보와 일치하였다(도 12b). 이의 메틸화 수준은 본 개시내용에 기재된 방법에 따라 66.9%로 결정되었다(도 12b). 킬로베이스 정도의 길이의 세포유리 DNA 분자의 유전적 및 후성적 정보는 바이설파이트 시퀀싱(Illumina)과 같은 짧은-판독물 시퀀싱을 사용함으로써 쉽게 식별할 수 없었다.

본 발명에서 본 발명자들은 분자가 임신한 여성 또는 태아에서 유래할 상대적 우도를 결정하는 방법을 설명한다. 임신한 여성에서, 태아 유전자형을 보유하는 DNA 분자는 실제로 태반에서 유래되는 반면, 모 유전자형을 보유하는 대부분의 DNA 분자는 모 혈액 세포에서 유래된다. 이 방법에서 본 발명자들은 먼저 태반 및 모 혈액 세포 모두에 대한 메틸화 수준에 따른 DNA 분자의 빈도 분포 곡선을 구성한다. 이를 달성하기 위해서, 본 발명자들은 인간 게놈을 상이한 크기의 빈으로 나누었다.

도 13은 1 kb 내지 20 kb의 상이한 해상도에서 메틸화 수준에 따른 태반(적색) 및 산모 혈액 세포(청색)의 DNA에 대한 빈도 분포를 나타낸다. 빈도는 y축에 나타낸다. 메틸화 수준은 x축에 나타낸다. 빈의 크기의 예는 1 kb, 2 kb, 5 kb, 10 kb, 15 kb 및 20 kb를 포함하지만 이들로 제한되지 않는다. 각각의 빈의 메틸화 수준은 메틸화된 CpG 부위의 수를 CpG 부위의 총 수로 나눈 값을 기반으로 결정되었다. 모든 빈의 메틸화 수준을 결정한 후, 상이한 빈 크기에 대해 태반 게놈과 모 혈액 세포 게놈 각각에 대한 빈도 분포 곡선을 구성할 수 있다.

긴 DNA 분자의 메틸화 수준을 기반으로, 태반 혈액 세포 또는 모 혈액 세포로부터 유래될 우도는 이러한 메틸화 수준에서 두 가지 유형의 DNA 분자의 상대적 풍부도뿐만 아니라 샘플에서 태아 DNA의 분획 농도에 의해 결정될 수 있다.

x 및 y를 특정 메틸화 수준에서 각각 태반 및 모 혈액 세포로부터 유래된 DNA 분자의 빈도라고 하고, f를 샘플 중의 태아 DNA의 분획 농도라고 한다.

태아로부터 유래된 DNA 분자에 대한 우도(P)는 다음과 같이 계산될 수 있다:

이전의 예에서, 16 kb의 혈장 DNA 분자 및 27.1%의 메틸화 수준이 고려된다.

도 14a 및 도 14b는 16-kb(도 14a) 및 24-kb(도 14b) 윈도우 내 메틸화 수준에 따른 태반(적색) 및 모 혈액 세포(청색)로부터의 DNA에 대한 빈도 분포를 나타낸다. 빈도는 y축에 나타낸다. 메틸화 수준은 x축에 나타낸다. 16 kb 단편에 대한 빈도 분포 플롯에 기초하여(도 14a), 태반 혈액 세포 및 모 혈액 세포로부터 유래된 DNA 분자에 대한 빈도는 각각 0.6% 및 0.08%이다. 태아 DNA 분율이 21.8%이므로, 이 DNA 단편이 태반에서 유래할 확률은 64%인데, 이는 태반 기원의 우도가 높아짐을 시사한다.

태아 조직으로부터 유래된 DNA 분자의 확률은 또한 24 kb의 혈장 DNA 분자 및 66.9%의 메틸화 수준에 대해 계산될 수 있다. 24 kb 단편에 대한 빈도 분포 플롯에 기초하여, 태반 혈액 세포 및 모 혈액 세포로부터 유래된 DNA 분자에 대한 빈도는 각각 0.05% 및 0.16%(도 14b)이다. 이 DNA 단편이 태반에서 유래할 확률은 0.8%인데, 이는 태반 기원일 가능성이 매우 낮음을 시사한다. 즉, 분자가 모체 기원일 가능성이 높다.

이 계산은 태아 DNA 및 모 DNA의 크기 분포 곡선을 참조하여 DNA 분자의 크기를 추가로 고려할 수 있다. 이러한 분석은 예를 들어, 베이즈의 정리, 로지스틱 회귀, 다중 회귀 및 지원 벡터 머신, 랜덤 포레스트 분석, 분류 및 회귀 트리(CART), K-최근접 이웃 알고리즘을 사용하여 수행할 수 있지만 이들로 제한되지 않는다.

도 15a 및 도 15b는 인간 참조(chr8: 108694010-108712904)의 염색체 8 내의 영역에 정렬되고(도 15a), 7개의 모-특이적 대립형질을 보유하는 18,896 bp 크기의 혈장 중의 긴 DNA 단편을 나타낸다(도 15b). 모든 그러한 모-특이적 대립형질은 모 게놈 및 태아 게놈의 심층 시퀀싱으로부터 추론된 대립형질 정보와 일치하였다(Illumina 기술)(도 15b). 이의 메틸화 수준은 본 개시내용에 기재된 방법에 따라 72.6%인 것으로 결정되었으며(도 15b), 이는 모-특이적 단편의 합동 메틸화 수준(72.7%)과 대등하다는 것을 나타낸다. 따라서 그러한 분자는 모체 기원의 단편으로 분류될 가능성이 더 높다. 킬로베이스 정도의 길이의 세포유리 DNA 분자의 유전적 및 후성적 정보는 바이설파이트 시퀀싱(Illumina)과 같은 짧은-판독물 시퀀싱을 사용함으로써 쉽게 식별할 수 없었다.

상기에 기재된 방법을 사용하여 이 분자가 태반에서 유래할 확률을 계산할 수 있다. 19 kb 단편에 대한 빈도 분포 플롯에 기초하여, 태반 혈액 세포 및 모 혈액 세포로부터 유래된 DNA 분자에 대한 빈도는 각각 0.65% 및 0.23%이다. 이 DNA 단편이 태반에서 유래할 우도는 43%인데, 이는 모체 기원의 가능성이 높아짐을 시사한다.

D. 임상 일배체형 응용

실시형태에서, 임신한 여성의 혈장 DNA에서 짧은 DNA 분자와 긴 DNA 분자를 모두 분석하는 능력은 조직에서 얻은 사전 부계 또는 모 또는 태아 유전자형 정보에 대한 요구 없이 상대 일배체형 투여량(RHDO) 분석을 수행할 수 있게 한다(문헌[Lo et al. Sci Transl Med. 2010;2:61ra91]; 문헌[Hui et al. Clin Chem. 2017;63:513-524]). 이 능력은 이전에 가능했던 것보다 비용 효율적이고 임상적으로 적용 가능하다.

도 16은 임신 중 세포유리 DNA를 사용하여 RHDO 분석을 수행하는 방법에 대한 이러한 원칙을 나타낸다. 세포유리 DNA는 임신한 여성으로부터 단리되고 단계 1605에서 SMRT 시퀀싱에 적용된다. 긴 DNA 분자 및 짧은 DNA 분자를 포함하는 각각의 분자에 대한 크기, 대립형질 정보 및 메틸화 상태는 본 개시내용에 기재된 방법에 따라 결정될 수 있다. 단계 1610에서 크기 정보에 따라 시퀀싱된 분자를 긴 DNA 분자와 짧은 DNA 분자의 두 가지 범주로 나눌 수 있다. 긴 DNA 범주 및 짧은 DNA 범주를 결정하는 데 사용되는 컷오프는 150 bp, 180 bp, 200 bp, 250 bp, 300 bp, 350 bp, 400 bp, 450 bp, 500 bp, 550 bp, 600 bp, 650 bp, 700 bp, 750 bp, 800 bp, 850 bp, 900 bp, 950 bp, 1 kb, 1.1 kb, 1.2 kb, 1.3 kb, 1.4 kb, 1.5 kb, 1.6 kb, 1.7 kb, 1.8 kb, 1.9 kb, 2 kb, 2.5 kb, 3 kb, 4 kb, 5 kb, 6 kb, 7 kb, 8 kb, 9 kb, 10 kb, 15 kb, 20 kb, 30 kb, 40 kb, 50 kb, 60 kb, 70 kb, 80 kb, 90 kb, 100 kb, 200 kb, 300 kb, 400 kb, 500 kb 또는 1 Mb를 포함하지만 이들로 제한되지 않는다. 단계 1615에서, 실시형태에서, 긴 DNA 분자에 존재하는 대립형질 정보는 모 일배체형, 즉 Hap I 및 Hap II를 구성하는 데 사용될 수 있다. 짧은 DNA 분자는 대립형질 정보에 따라 모 일배체형에 정렬될 수 있다. 따라서, 모 Hap I 및 Hap II에서 유래하는 세포유리 DNA 분자(예를 들어, 짧은 DNA)의 수를 결정할 수 있다.

단계 1620에서, 일배체형의 불균형이 분석될 수 있다. 불균형은 분자 계수치, 분자 크기 또는 분자 메틸화 상태일 수 있다. 단계 1625에서 태아의 모계 유전이 추론될 수 있다. 모 혈장 DNA에서 Hap I의 용량이 과도하게 표시되면, 태아는 모 Hap I을 유전받을 가능성이 높다. 그렇지 않으면 태아는 모 Hap II를 유전받을 가능성이 높다. 순차 확률비 검정(SPRT), 이항 검정, 카이제곱 검정, 스튜던트 t-검정, 비모수 검정(예를 들어, 윌콕슨 검정) 및 은닉 마르코프 모델을 포함하지만 이들로 제한되지 않는 상이한 통계학적 접근 방식이 어느 모 일배체형이 과대하게 표현되는지를 결정하는 데 사용될 것이다.

계수 분석에 추가하여, 실시형태에서, 짧은 DNA 분자의 메틸화 및 크기가 또한 결정되고, 모 일배체형에 배정된다. 2개의 일배체형(즉, Hap I 및 Hap II) 사이의 메틸화 불균형은 태아로 유전된 모 일배체형을 결정하는 데 사용될 수 있다. 태아가 Hap I이 유전되면, Hap I의 대립형질을 보유하는 더 많은 단편은 Hap II의 대립형질을 보유하는 것과 비교하여 모 혈장에 존재할 것이다. 태아로부터 유래된 DNA 단편의 저메틸화는 Hap II의 것과 비교하여 Hap I의 메틸화 수준을 낮출 것이다. 다시 말해서, Hap I의 메틸화가 Hap II보다 더 낮은 메틸화 수준을 보여주면, 태아는 모 Hap I를 유전하였을 가능성이 더 높을 것이다. 그렇지 않으면 태아는 모 Hap II를 유전받을 가능성이 더 높을 것이다. 또 다른 실시형태에서, 개별 단편이 태아 또는 어머니로부터 유래될 확률은 상기 기재된 바와 같이 계산될 수 있다. Hap I에 정렬된 모든 단편에 대해, 이러한 단편이 태아로부터 유래될 집계 확률은 베이즈 정리를 기반으로 결정할 수 있다. 유사하게, 태아로부터 유래될 이러한 단편의 집계 확률은 Hap II에 대해 계산될 수 있다. Hap I 또는 Hap II가 태아에게 유전될 우도는 두 개의 집계 확률을 기반으로 추론할 수 있다.

실시형태에서, 2개의 일배체형(즉, Hap I 및 Hap II) 사이의 크기 길어짐 또는 짧아짐은 태아로 유전된 모 일배체형을 결정하는 데 사용될 수 있다. 태아가 Hap I이 유전되면, Hap I의 대립형질을 보유하는 더 많은 단편은 Hap II의 대립형질을 보유하는 것과 비교하여 모 혈장에 존재할 것이다. 태아로부터 유래된 DNA 단편은 Hap II로부터 유래된 것보다 상대적으로 짧다. 즉, Hap I로부터 기원한 분자가 Hap II보다 더 짧은 DNA를 함유하는 경우, 태아가 모 Hap I을 상속할 가능성이 더 높을 것이다. 그렇지 않으면 태아는 모 Hap II를 유전받을 가능성이 더 높을 것이다.

일부 실시형태에서, 태아의 모계 유전을 추론하기 위해 모 Hap I 및 Hap II 사이의 계수치, 크기 및 메틸화의 조합된 분석을 수행할 수 있다. 예를 들어, 로지스틱 회귀를 사용하여 계수치, 크기 및 메틸화 상태를 포함한 세 가지 메트릭을 조합할 수 있다.

임상 실행에서, 계수치, 크기 및 메틸화 상태에 관한 분석은 태어나지 않은 태아가 유전 장애, 예를 들어 비제한적인 예로서 X 취약 증후군, 근이영양증, 헌팅턴병 또는 베타-지중해빈혈을 포함하는 단일 유전자 장애와 연관된 모 일배체형이 유전되는지를 결정하는 것을 가능하게 할 것이다. 긴 세포유리 판독물에서 DNA 서열의 반복을 포함하는 장애의 검출은 본 개시내용에서 별도로 설명된다.

E. 긴 세포유리 DNA 분자의 표적화 시퀀싱

본 개시내용에 기재된 방법은 또한 하나 이상의 선택된 긴 DNA 단편을 분석하기 위해 적용될 수 있다. 실시형태에서, 관심 있는 하나 이상의 긴 DNA 단편은 상보성 서열을 갖는 합성 올리고뉴클레오타이드로의 관심 있는 영역(들)으로부터의 DNA 분자의 혼성화를 허용하는 혼성화 방법에 의해 먼저 농축될 수 있다. 본원에 기재된 방법을 이용한 것에서 크기, 유전적 및 후성적 정보 모두를 해독하기 위해서, 원래의 DNA 분자에서의 염기 변형 정보가 PCR 산물로 이전될 수 없으므로, 표적 DNA 분자는 시퀀싱으로 처리되기 전에 PCR에 의해 증폭되지 않는 것이 바람직하다.

여러 방법은 PCR 증폭을 수행함이 없이 이 표적 영역에 농축되도록 개발되었다. 또 다른 실시형태에서, 하나 이상의 표적 긴 DNA 분자는 클러스터링된 규칙적으로 이격된 짧은 회문 반복체(clustered regularly interspaced short palindromic repeats: CRISPR)-CRISPR-연관 단백질 9(Cas9) 시스템의 사용을 통해 농축될 수 있다(문헌[Stevens et al. PLOS One 2019;14(4):e0215441; Watson et al. Lab Invest 2020;100:135-146]). 이러한 CRISPR-Cas9 매개 절단부가 원래의 긴 DNA 분자의 크기를 변경하더라도, 이들의 유전적 및 후성적 정보는 여전히 보존되며, 염기 함량, 일배체형(즉, 상) 정보, 새로운 돌연변이, 염기 변형(예를 들어, 4mC(N4-메틸시토신), 5hmC(5-히드록시메틸시토신), 5fC(5-포르밀시토신), 5caC(5-카르복실시토신), 1mA(N1-메틸아데닌), 3mA( N3-메틸아데닌), 7mA(N7-메틸아데닌), 3mC(N3-메틸시토신), 2mG(N2-메틸구아닌), 6mG(O6-메틸구아닌), 7mG(N7-메틸구아닌), 3mT(N3-메틸티민), 4mT(O4-메틸티민) 및 8oxoG(8-옥소-구아닌)를 포함하지만 이들로 제한되지 않는 본 개시내용에 기재된 방법을 사용하여 얻어질 수 있다. 실시형태에서, DNA 샘플에서의 DNA 분자의 말단은 처음에 탈인산화되어서 이들이 직접적으로 시퀀싱 어댑터에 대한 결찰되기가 용이하지 않다. 이후, 관심 있는 긴 DNA 분자는 이중 가닥 절단을 생성하기 위해 가이드 RNA(crRNA)를 갖는 Cas9 단백질에 의해 안내된다. 양측에서 이중 가닥 절단부에 의해 측접된 관심 있는 긴 DNA 분자는 이후 선택된 시퀀싱 플랫폼에 의해 규정된 시퀀싱 어댑터에 결찰될 것이다. 다른 실시형태에서, Cas9 단백질에 의해 결합되지 않은 DNA 분자가 분해되도록 DNA는 엑소뉴클레아제에 의해 처리될 수 있다(문헌[Stevens et al. PLOS One 2019;14(4):e0215441]). 이 방법이 PCR 증폭을 수반하지 않으므로, 염기 변형을 갖는 원래의 DNA 분자는 시퀀싱될 수 있고, 염기 변형이 결정될 것이다.

실시형태에서, 이러한 방법은 인간 참조 게놈(hg19)과 같은 참조 게놈을 참조하여 가이드 RNA를 설계함으로써 상동 서열을 공유하는 다수의 긴 DNA 분자, 예를 들어, 긴 산재 핵 요소(LINE)를 반복부를 표적화하는 데 사용될 수 있다. 일 예에서, 이러한 분석은 태아 이수성의 검출을 위한 모 혈장에서의 순환 세포유리 DNA의 분석에 사용될 수 있다(문헌[Kinde et al. PLOS One 2012;7(7):e41162]). 실시형태에서, 비활성화되거나 '죽은' Cas9(dCas9) 및 이의 연관 단일 가이드 RNA(sgRNA)는 이중 가닥 DNA 분자를 절단하지 않고 표적화된 긴 DNA를 농축하는 데 사용될 수 있다. 예를 들어, sgRNA의 3' 단부는 추가적인 보편적인 짧은 서열을 갖도록 설계될 수 있다. dCas9에 의해 결합된 표적의 긴 DNA 분자를 포획하기 위해 보편적인 짧은 서열에 상보적인 비오틴화된 단일 가닥 올리고뉴클레오타이드를 사용할 수 있다. 또 다른 실시형태에서, 비오틴화된 dCas9 단백질 또는 sgRNA, 또는 둘 모두를 사용하여 농축을 촉진할 수 있다.

실시형태에서, 화학적, 물리적, 효소적, 겔 기반 및 자기 기반 방법 또는 하나 초과의 이러한 접근법을 조합한 방법을 포함하지만 이들로 제한되지 않는 접근법을 사용하여 하나 이상의 특정 관심 게놈 영역을 제한하지 않고 긴 DNA 단편을 농축하기 위해 크기 선택을 수행할 수 있다. 다른 실시형태에서, 면역침전은 항-메틸시토신 항체 및 메틸-결합 단백질의 사용에 의해 매개되는 것과 같은 특정 메틸화 프로파일의 DNA 단편을 농축시키기 위해서 사용될 수 있다. 결합되거나 포획된 DNA의 메틸화 프로파일은 비메틸화 인식 시퀀싱을 사용하여 결정할 수 있다.

F. 긴 혈장 DNA 분자에 기초한 태아 유전 분석에 대한 일반적인 개념

도 17은 모체 기원 정보 및 태아 기원의 정보를 이용하여 혈장 DNA 분자에서 유전적/후성적 장애의 결정을 예시한다. 긴 혈장 DNA 분자는 분자의 전체 또는 일부[즉, 영역 (a)]에 있는 CpG 부위의 유전적 및/또는 후성적 프로파일에 따라 임신한 여성에서 태아 기원이거나 모체 기원인 것으로 결정될 수 있다. 유전 정보는 서열 정보, 단일 뉴클레오타이드 다형성, 삽입, 결실, 직렬 반복, 부수체 DNA, 미세부수체, 미니부수체, 역위 등일 수 있지만 이들로 제한되지 않는다. 후성적 정보는 하나 이상의 CpG 부위의 메틸화 상태뿐만 아니라 혈장 DNA 분자의 상대적 순서일 수 있다. 다른 실시형태에서, 후성적 정보는 A, C, G, 또는 T 중 임의의 것의 변형일 수 있다. 조직 기원 정보가 있는 긴 혈장 DNA는 이러한 긴 혈장 DNA 분자[즉, 영역 (b)]에서 유전 및/또는 후성유전 장애의 존재를 결정함으로써 비침습적 산전 검사에 사용될 수 있다.

도 18은 태아 이상 단편의 식별을 예시한다. 예로서, 긴 DNA 단편은 본 개시내용에 따른 영역 (a)의 메틸화 패턴에 기초하여 태아 기원인 것으로 확인되었다. 그러한 태아 기원의 분자에 기초하여 유전 또는 후성유전 장애에 의해 영향을 받는 태아의 가능성을 결정할 수 있다. 유전 장애는 단일 뉴클레오타이드 변이체, 삽입, 결실, 직렬 반복, 부수체 DNA, 미세부수체, 미니부수체, 역위 등을 포함할 수 있다. 유전 장애의 예는 베타 지중해빈혈, 알파 지중해빈혈, 겸상 적혈구 빈혈, 낭포성 섬유증, 성-관련 유전 장애(예를 들어, 혈우병, 뒤센느 근이영양증), 척수 근육 위축, 선천성 부신 과형성 등을 포함하지만 이들로 제한되지 않는다. 후성 유전 장애는 DNA 메틸화의 비정상적인 수준, 예를 들어, 메틸화 증가(즉, 과메틸화) 또는 손실(저메틸화)이다. 후성유전 장애의 예는 취약 X 증후군, 엔젤만 증후군, 프라더-윌리 증후군, 안면견갑상완 근이영양증(FSHD), 면역결핍, 중심체 불안정성 및 안면 기형(ICF) 증후군 등을 포함하지만 이들로 제한되지 않는다. 유전 또는 후성유전 장애는 영역 (b)에 존재하는 것으로 발견될 수 있다.

G. 시퀀싱 정확도 개선

긴 세포유리 DNA 단편의 서열 판독물을 사용하여 시퀀싱 정확도가 개선될 수 있다. 도 11b에 도시된 바와 같이, 긴 태아-특이적 DNA 분자에 있는 7개의 대립형질 중 PacBio와 Illumina 시퀀싱 간에 일치하지 않는 것으로 보이는 1개의 대립형질이 존재하였다.

도 19a 내지 도 19g는 PacBio 시퀀싱을 사용한 세포유리 DNA 유전자형분석의 오류 수정의 예시를 나타낸다. 본 발명자들은 도 11b의 그러한 7개의 부위에 대한 하위판독물 정렬 결과를 가시화하였다. 첫 번째 행은 게놈 좌표를 나타내고; 두 번째 행은 참조 서열이다. 세 번째 및 그 이후 행은 정렬된 하위판독물을 나타낸다. 예를 들어, 도 19a에서, 그 영역을 가로지르는 8개의 하위판독물이 존재한다. '.'는 Watson 가닥의 참조 염기와 동일한 것을 나타낸다. ','는 Crick 가닥의 참조 염기와 동일한 것을 나타낸다. '알파벳 문자'는 대체 대립형질을 나타낸다. '*'은 indel을 나타낸다. 주요 염기인 도 19f에 도시된 불일치 부위는 공통 서열에서 'T'로 불렸다는 것을 인지할 수 있다. 그러나, 그 부위의 9개의 하위판독물 중(도 19f)에서, 9개의 하위판독물 중 5개(즉, 56%의 주요 대립형질 분획(MAF))만 'T'인 것으로 결정되었고, 나머지는 'C'인 것으로 결정되었다. 이 부위(도 19f)의 주요 대립형질 분획은 다른 부위(도 19a 내지 도 19e 및 도 19g)보다 낮았다(MAF 범위: 67 내지 89%). 따라서, 예를 들어 MAF를 적어도 60%로 사용하여 공통 서열에서 각각의 부위의 기본 조성을 결정하기 위한 엄격한 기준을 설정하면, 이 오류 부위는 다운스트림 해석에서 제외될 것이다. 반면에, 이러한 잘못된 부위는 단독중합체(즉, 일련의 연속적인 동일한 염기, 'TTTTTTT')에 포함되어 발생하였다. 실시형태에서, 단독중합체 내의 변이체가 QC 실패로 표시되고, 일시적으로 다운스트림 분석에 사용되지 않는 기준을 설정할 수 있다. 실시형태에서, 상이한 매핑 품질 및 염기 품질을 적용하여 염기 구성 분석을 개선하기 위해 저품질 염기 또는 하위판독물을 수정하거나 필터링할 수 있다.

나노기공 시퀀싱의 시퀀싱 정확도의 추가 개선으로, 본 발명의 실시형태는 또한 이러한 개선된 시퀀싱 플랫폼과 함께 사용될 수 있고, 이에 의해서 개선된 정확도를 생성할 수 있다.

H. 예시적인 방법

긴 세포유리 DNA 단편은 세포유리 DNA 단편이 있는 임신한 여성으로부터 얻은 생물학적 샘플에서 시퀀싱될 수 있다. 이러한 긴 세포유리 DNA 단편은 태아에 의한 일배체형의 유전을 결정하는 데 사용될 수 있다.

1. 긴 세포유리 DNA 단편의 시퀀싱

도 20은 임신한 유기체의 생물학적 샘플을 분석하는 방법(2000)을 나타낸다. 생물학적 샘플은 복수의 세포유리 핵산 분자를 포함할 수 있다. 생물학적 샘플은 본원에 기재된 임의의 생물학적 샘플일 수 있다. 생물학적 샘플에서 세포유리 핵산 분자 중 20% 초과는 200 nt(뉴클레오타이드)보다 큰 크기를 갖는다.

블록 2010에서, 복수의 세포유리 핵산 분자가 시퀀싱된다. 시퀀싱은 단일 분자 실시간 기술에 의해서 수행될 수 있다. 일부 실시형태에서, 시퀀싱은 나노기공을 사용하여 수행될 수 있다.

시퀀싱된 복수의 세포유리 핵산 분자 중 20% 초과가 200 nt 초과의 길이를 가질 수 있다. 일부 실시형태에서, 시퀀싱된 복수의 세포유리 핵산 분자 중 15 내지 20%, 20 내지 25%, 25 내지 30%, 30 내지 35% 또는 35% 초과가 200 nt 초과의 길이를 가질 수 있다.

일부 실시형태에서, 시퀀싱된 복수의 세포유리 핵산 분자 중 11% 초과가 400 nt 초과의 길이를 가질 수 있다. 일부 실시형태에서, 시퀀싱된 복수의 세포유리 핵산 분자 중 5 내지 10%, 10 내지 15%, 15 내지 20%, 20 내지 25% 또는 25% 초과가 400 nt 초과의 길이를 가질 수 있다.

일부 실시형태에서, 시퀀싱된 복수의 세포유리 핵산 분자 중 10% 초과가 500 nt 초과의 길이를 가질 수 있다. 일부 실시형태에서, 시퀀싱된 복수의 세포유리 핵산 분자 중 5 내지 10%, 10 내지 15%, 15 내지 20%, 20 내지 25% 또는 25% 초과가 500 nt 초과의 길이를 가질 수 있다.

실시형태에서, 시퀀싱된 복수의 세포유리 핵산 분자 중 8% 초과가 600 nt 초과의 길이를 가질 수 있다. 일부 실시형태에서, 시퀀싱된 복수의 세포유리 핵산 분자 중 5 내지 10%, 10 내지 15%, 15 내지 20%, 20 내지 25% 또는 25% 초과가 600 nt 초과의 길이를 가질 수 있다.

일부 실시형태에서, 시퀀싱된 복수의 세포유리 핵산 분자 중 6% 초과가 1 knt 초과의 길이를 가질 수 있다. 일부 실시형태에서, 시퀀싱된 복수의 세포유리 핵산 분자 중 3 내지 5%, 5 내지 10%, 10 내지 15%, 15 내지 20%, 20 내지 25% 또는 25% 초과가 1 knt 초과의 길이를 가질 수 있다.

실시형태에서, 시퀀싱된 복수의 세포유리 핵산 분자 중 3% 초과가 2 knt 초과의 길이를 가질 수 있다. 일부 실시형태에서, 시퀀싱된 복수의 세포유리 핵산 분자 중 1 내지 5%, 5 내지 10%, 10 내지 15%, 15 내지 20%, 20 내지 25% 또는 25% 초과가 2 knt 초과의 길이를 가질 수 있다.

실시형태에서, 시퀀싱된 복수의 세포유리 핵산 분자 중 1% 초과가 3 knt 초과의 길이를 가질 수 있다. 일부 실시형태에서, 시퀀싱된 복수의 세포유리 핵산 분자 중 1 내지 5%, 5 내지 10%, 10 내지 15%, 15 내지 20%, 20 내지 25% 또는 25% 초과가 3 knt 초과의 길이를 가질 수 있다.

일부 실시형태에서, 시퀀싱된 복수의 세포유리 핵산 분자 중 적어도 0.9%가 4 knt 초과의 길이를 가질 수 있다. 일부 실시형태에서, 시퀀싱된 복수의 세포유리 핵산 분자 중 0.5 내지 1%, 1 내지 5%, 5 내지 10%, 10 내지 15%, 15 내지 20% 또는 20% 초과가 4 knt 초과의 길이를 가질 수 있다.

일부 실시형태에서, 시퀀싱된 복수의 세포유리 핵산 분자 중 적어도 0.04%가 10 knt 초과의 길이를 가질 수 있다. 일부 실시형태에서, 시퀀싱된 복수의 세포유리 핵산 분자 중 0.01 내지 0.1%, 0.1% 내지 0.5%, 0.5 내지 1%, 1 내지 5%, 5 내지 10%, 10 내지 15% 또는 15% 초과가 4 knt 초과의 길이를 가질 수 있다.

복수의 세포유리 핵산 분자는 적어도 10, 50, 100, 150 또는 200개의 세포유리 핵산 분자를 포함할 수 있다. 복수의 세포유리 핵산 분자는 복수의 상이한 게놈 영역으로부터 유래될 수 있다. 예를 들어, 복수의 염색체 아암 또는 염색체는 세포유리 핵산 분자에 의해서 피복될 수 있다. 복수의 세포유리 핵산 분자 중 적어도 2개는 비-중첩 영역에 상응할 수 있다.

긴 세포유리 DNA 단편의 시퀀싱 방법이 본원에 기재된 임의의 방법에 의해서 사용될 수 있다. 시퀀싱으로부터의 판독물은 태아 이수성, 이상(예를 들어, 카피 수 이상), 유전자 돌연변이 또는 변이 또는 부모 일배체형의 유전을 결정하는 데 사용될 수 있다. 서열 판독물의 양은 세포유리 DNA 단편의 양을 나타낼 수 있다.

2. 일배체형 유전

도 21은 태아를 임신한 여성으로부터 얻은 생물학적 샘플의 분석 방법(2100)을 나타낸다. 여성은 제1 염색체 영역에서 제1 일배체형 및 제2 일배체형을 가질 수 있다. 생물학적 샘플은 태아 및 여성으로부터의 복수의 세포유리 DNA 분자를 포함할 수 있다. 생물학적 샘플은 본원에 기재된 임의의 생물학적 샘플일 수 있다.

블록 2105에서, 복수의 세포유리 DNA 분자에 상응하는 판독물을 제공받을 수 있다. 판독물은 서열 판독물일 수 있다. 일부 실시형태에서, 방법은 시퀀싱을 수행하는 것을 포함할 수 있다.

블록 2110에서, 복수의 세포유리 DNA 분자의 크기가 측정될 수 있다. 크기는 DNA 분자의 단부에 상응하는 하나 이상의 서열 판독물을 참조 게놈에 정렬하여 측정할 수 있다. 크기는 DNA 분자를 전체 길이 시퀀싱한 다음 전체 길이 서열의 뉴클레오타이드 수를 계수하여 측정할 수 있다. 최외곽 뉴클레오타이드의 게놈 좌표를 사용하여 DNA 분자의 길이를 결정할 수 있다.

블록 2115에서, 복수의 세포유리 DNA 분자로부터의 세포유리 DNA 분자의 제1 세트는 컷오프 값 이상의 크기를 갖는 것으로 식별될 수 있다. 컷오프 값은 긴 DNA와 관련된 임의의 컷오프일 수 있다. 예를 들어, 컷오프는 150 bp, 180 bp, 200 bp, 250 bp, 300 bp, 350 bp, 400 bp, 450 bp, 500 bp, 550 bp, 600 bp, 650 bp, 700 bp, 750 bp, 800 bp, 850 bp, 900 bp, 950 bp, 1 kb, 1.5 kb, 2 kb, 2.5 kb, 3 kb, 4 kb, 5 kb, 6 kb, 7 kb, 8 kb, 9 kb, 10 kb, 15 kb, 20 kb, 30 kb, 40 kb, 50 kb, 60 kb, 70 kb, 80 kb, 90 kb, 100 kb, 200 kb, 300 kb, 400 kb, 500 kb 또는 1 Mb를 포함할 수 있다.

블록 2120에서, 세포유리 DNA 분자의 제1 세트에 상응하는 판독물로부터의 제1 일배체형의 서열 및 제2 일배체형의 서열이 결정될 수 있다. 제1 일배체형의 서열 및 제2 일배체형의 서열을 결정하는 것은 세포유리 DNA 분자의 제1 세트에 상응하는 판독물을 참조 게놈에 정렬하는 것을 포함할 수 있다.

일부 실시형태에서, 제1 일배체형의 서열 및 제2 일배체형의 서열을 결정하는 것은 참조 게놈을 포함하지 않을 수 있다. 서열을 결정하는 것은 판독물의 제1 하위세트를 판독물의 제2 하위세트에 정렬하여 판독물 내의 유전자좌에서 상이한 대립형질을 식별하는 것을 포함한다. 방법은 판독물의 제1 하위세트가 유전자좌에서 제1 대립형질을 갖는지를 결정하는 것을 포함할 수 있다. 방법은 또한 판독물의 제2 하위세트가 유전자좌에서 제2 대립형질을 갖는지를 결정하는 것을 포함할 수 있다. 방법은 판독물의 제1 하위세트가 제1 일배체형에 상응하는지를 결정하는 것을 추가로 포함할 수 있다. 또한, 방법은 판독물의 제2 하위세트가 제2 일배체형에 상응하는지를 결정하는 것을 포함할 수 있다. 정렬은 도 16에 설명된 정렬과 유사할 수 있다.

블록 2125에서, 복수의 세포유리 DNA 분자로부터의 세포유리 DNA 분자의 제2 세트는 제1 일배체형의 서열에 정렬될 수 있다. 세포유리 DNA 분자의 제2 세트는 컷오프 값 미만의 크기를 가질 수 있다. 세포유리 DNA 분자의 제2 세트는 제1 일배체형의 짧은 DNA 분자일 수 있다.

블록 2130에서, 복수의 세포유리 DNA 분자로부터의 세포유리 DNA 분자의 제3 세트는 제2 일배체형의 서열에 정렬될 수 있다. 세포유리 DNA 분자의 제3 세트는 컷오프 값 미만의 크기를 가질 수 있다. 세포유리 DNA 분자의 제3 세트는 제2 일배체형의 짧은 DNA 분자일 수 있다.

블록 2135에서, 세포유리 DNA 분자의 제2 세트를 사용하여 제1 매개변수 값을 측정할 수 있다. 매개변수는 세포유리 DNA 분자의 계수치, 세포유리 DNA 분자의 크기 프로파일 또는 세포유리 DNA 분자의 메틸화 수준일 수 있다. 값은 원시 값 또는 통계 값(예를 들어, 평균, 중앙값, 최빈값, 백분위수, 최소값, 최대값)일 수 있다. 일부 실시형태에서, 값은 참조 샘플, 또 다른 영역, 일배체형 둘 다, 또는 다른 크기 범위에 대한 매개변수 값으로 정규화될 수 있다.

블록 2140에서, 제2 매개변수 값은 세포유리 DNA 분자의 제3 세트를 사용하여 측정될 수 있다. 매개변수는 세포유리 DNA 분자의 제2 세트와 동일한 매개변수이다.

블록 2145에서, 제1 값은 제2 값과 비교될 수 있다. 비교는 분리 값을 사용할 수 있다. 제1 값 및 제2 값을 이용하여 분리 값을 계산할 수 있다. 분리 값은 컷오프 값과 비교될 수 있다. 분리 값은 본원에 기재된 임의의 분리 값일 수 있다. 컷오프 값은 정배수성 태아를 갖는 임신한 여성으로부터의 참조 샘플로부터 결정될 수 있다. 다른 실시형태에서, 컷오프 값은 이수성 태아를 임신한 여성으로부터의 참조 샘플로부터 결정될 수 있다. 일부 실시형태에서, 컷오프 값은 이수성 태아를 가정하여 결정될 수 있다. 예를 들어, 정배수성 태아를 갖는 임신한 여성의 참조 샘플로부터의 데이터는 이수성에 대한 염색체 영역의 복제 수의 증가 또는 감소를 설명하기 위해 조정될 수 있다. 컷오프 값은 데이터를 조정하여 결정될 수 있다.

블록 2150에서, 태아가 제1 일배체형을 상속할 가능성은 제1 값과 제2 값의 비교에 기초하여 결정될 수 있다. 우도는 분리 값과 컷오프 값의 비교를 기반으로 결정될 수 있다. 매개변수가 세포유리 DNA 분자의 크기 프로파일인 경우, 방법은 세포유리 DNA 분자의 제2 세트가 세포유리 DNA 분자의 제3 세트보다 더 작은 프로파일을 특징으로 한다는 것을 나타내는, 제1 값이 제2 값보다 더 큰 경우 태아가 제2 일배체형보다 제1 일배체형을 유전받을 우도가, 높다고 결정하는 단계를 포함할 수 있다. 매개변수가 세포유리 DNA 분자의 메틸화 수준인 경우, 방법은 제1 값이 제2 값보다 더 작은 경우 태아가 제2 일배체형보다 제1 일배체형을 유전받을 우도가 높다고 결정하는 단계를 포함할 수 있다.

일부 실시형태에서, 방법은 세포유리 DNA 분자의 제1 세트에 상응하는 판독물의 판독 시에 하위서열의 반복부의 수를 식별하는 단계를 포함할 수 있다. 제1 일배체형의 서열을 결정하는 것은 서열이 하위서열의 반복부의 수를 포함하는지를 결정하는 것을 포함할 수 있다. 제1 일배체형은 반복부-연관 질환을 포함할 수 있으며, 이는 본원에 기술된 임의의 것일 수 있다. 태아가 반복부-연관 질환이 유전될 우도가 결정될 수 있다. 태아가 반복부-연관 질환이 유전될 우도는 태아가 제1 일배체형을 유전받을 우도와 같거나 유사할 수 있다. 서열의 반복부를 식별하는 것은 도 16을 포함하는 본 개시내용의 뒷부분에서 설명된다.

II. 메틸화를 사용한 기원 조직에 대한 분석

긴 세포유리 DNA 분자는 여러 메틸화 부위를 가질 수 있다. 본 개시내용에서 논의된 바와 같이, 임신한 여성에서 긴 세포유리 DNA 분자의 메틸화 수준은 기원 조직을 결정하는데 사용될 수 있다. 또한, 긴 세포유리 DNA 분자에 존재하는 메틸화 패턴은 기원 조직을 결정하는 데 사용될 수 있다.

태반 조직으로부터의 세포는 백혈구 및 조직, 예컨대, 비제한적으로 간, 폐, 식도, 심장, 췌장, 결장, 소장, 지방 조직, 부신, 뇌 등으로부터의 세포에 비해서 고유한 메틸화 패턴을 보유한다(문헌[Sun et al., Proc Natl Acad Sci USA. 2015;112:E5503-12]). 임산부의 혈액에서 순환하는 태아 DNA의 메틸화 프로파일은 태반의 것과 유사할 수 있으므로, 태아 성별 또는 유전자형에 의존하지 않는 비침습적 태아-특이적 생체표지자를 개발하는 수단을 탐색할 가능성을 제공한다. 그러나, 임신한 여성의 모 혈장 DNA의 바이설파이트 시퀀싱(예를 들어, Illumina 시퀀싱 플랫폼 사용)은 다음과 같은 다수의 제한으로 인해 태아 기원의 분자를 모체 기원의 분자와 구별하는 능력이 부족할 수 있다: (1) 혈장 DNA는 바이설파이트 처리 동안 분해될 수 있고, 전형적으로 긴 DNA 분자는 더 짧은 분자로 파괴될 것임; (2) 500 bp보다 큰 DNA 분자는 하륜 분석을 위한 Illumina 시퀀싱 플랫폼으로 효과적으로 시퀀싱되지 않을 수 있다(문헌[Tan et al, Sci Rep. 2019;9:2856]).

메틸화를 기반으로 한 기원 조직에 대한 분석을 위해, 몇 가지 차등적으로 메틸화된 영역(DMR)에 초점을 맞추고, 단일 분자 메틸화 패턴 대신, DMR과 관련된 여러 분자에서 집계된 메틸화 신호를 사용할 수 있다(문헌[Sun et al, Proc Natl Acad Sci USA. 2015;112: E5503-12]). 많은 연구에서 메틸화에 민감한 제한 효소 기반(Chan et al, Clin Chem. 2006;52:2211-8) 또는 메틸화 특이적 PCR 기반 접근법(Lo et al, Am J Hum Genet. 1998;62:768-75)을 사용하여 태반으로부터 혈장 DNA 풀로의 기여도를 평가하려고 시도하였다. 그러나, 이러한 연구는 하나 또는 몇 개의 마커를 분석하는 데에만 적합했으며 게놈 전체 규모에서 분자를 분석하는 데 사용하기 어려울 수 있다. 그러나 이러한 판독값은 증폭된 신호(즉, DNA 라이브러리 준비 중 PCR 기반 증폭 및 유동 셀에서 시퀀싱 클러스터 생성 중 브리지 증폭)에서 추론되었다. 이러한 증폭 단계는 짧은 DNA 분자를 선호하는 편향을 잠재적으로 만들어, 긴 DNA 분자와 관련된 정보의 손실을 초래할 수 있다. 또한, 라이(Li) 등은 사전에 마이닝된(mined) DMR과 관련된 판독값만 분석하였다(문헌[Li et al., Nuclei Acids Res. 2018;46:e89]).

본 개시내용에서, 본 발명자들은 바이설파이트 처리 및 DNA 증폭 없이, 단일 DNA 분자의 메틸화 패턴을 기반으로 임신한 여성의 혈장에서 태아 DNA 분자 및 모 DNA 분자를 구별하는 새로운 접근법을 설명한다. 실시형태에서, 하나 이상의 긴 혈장 DNA 분자가 분석에 사용될 것이다(예를 들어, 크기 선택을 위한 생물정보학 및/또는 실험적 분석 사용). 긴 DNA 분자는 적어도 비제한적으로 100 bp, 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, 1 kb, 2 kb, 3 kb, 4 kb, 5 kb, 10 kb, 20 kb, 30 kb, 40 kb, 50 kb, 100 kb, 200 kb의 크기를 갖는 DNA 분자로서 정의될 수 있다. 모 혈장에서 더 긴 세포유리 DNA 분자의 존재 및 메틸화 상태에 관한 데이터가 부족하다. 예를 들어, 더 긴 세포유리 DNA 분자의 메틸화 상태가 기원 조직의 세포 DNA의 메틸화 상태를 반영하는지 여부는 알려져 있지 않고, 예를 들어, 긴 단편은 신체의 단편화 후에 메틸화 상태가 변할 수 있는 더 많은 부위를 갖고; 이러한 변화는 조각이 혈장에서 순환하는 동안 발생할 수 있다. 예를 들어, 순환 DNA의 메틸화 상태가 DNA 단편의 크기와 상관관계가 있다는 연구 결과가 있다(문헌[Lun et al. Clin Chem. 2013;59:1583-94]). 따라서, 더 긴 세포유리 DNA 분자로부터 기원 조직을 추론하는 가능성은 알려져 있지 않다. 따라서, 조직-연관 메틸화 시그니처를 식별하기 위해 취한 접근 방식과 이러한 조직 특이적 더 긴 세포유리 DNA 분자의 존재를 결정하고 해석하기 위해 취한 방법론은 짧은 세포유리 DNA 분석에 적용되는 것과 실질적으로 상이하다.

본 개시내용의 실시형태에 따르면, 짧은 DNA 분자 및 긴 DNA 분자를 식별하고 메틸화 패턴, 단편 단부, 크기 및 염기 조성을 포함하지만 이들로 제한되지 않는 그들의 생물학적 특성을 결정할 수 있다. 짧은 DNA 분자는 비제한적으로 크기가 50 bp, 60 bp, 70 bp, 80 bp, 90 bp, 100 bp, 200 bp, 300 bp 미만 등인 DNA 분자로 정의될 수 있다. 짧은 DNA 분자는 긴 것으로 간주되는 범위에 있지 않은 DNA 분자일 수 있다. 본 발명자들은 임신한 여성의 혈장에서 DNA 분자를 순환하는 기원 조직을 추론하는 새로운 접근 방식을 설명한다. 이 새로운 접근법은 혈장 중의 하나 이상의 긴 DNA 분자에 대한 메틸화 패턴을 사용한다. DNA 분자가 길수록, 그것이 함유할 가능성이 높은 CpG 부위의 수가 더 많아진다. 임의의 단일 CpG 부위의 메틸화 상태가 기원 조직을 결정하는 데 도움이 되지 않을 수도 있지만, 혈장 DNA 분자 상의 다수의 CpG 부위의 존재는 기원 조직 정보를 제공할 수 있다. 긴 DNA 분자에서 이러한 메틸화 패턴은 각 CpG 부위에 대한 메틸화 상태, 메틸화 상태의 차수 및 임의의 두 CpG 부위 사이의 거리를 포함할 수 있다. 두 CpG 부위들 사이의 메틸화 상태는 두 CpG 부위 사이의 거리에 따라 달라질 수 있다. 분자에서 특정 거리(예를 들어, CpG 섬) 내의 CpG 부위가 조직-특이적 패턴을 나타내는 경우, 통계 모델은 조직 유래 분석 중에 해당 신호에 더 많은 가중치를 할당할 수 있다.

도 22는 이 원리를 개략적으로 예시한다. 도 22는 DNA 분자에 대한 메틸화 패턴을 나타낸다. 상이한 조직(태반, 간, 혈액 세포, 결장) 및 6개의 혈장 DNA 단편 A 내지 E에 대해 7개의 CpG 부위가 나타난다. 메틸화된 CpG 부위는 적색으로 표시되고 메틸화되지 않은 CpG 부위는 녹색으로 표시된다. 예를 들어, 태반, 간, 혈액 세포 및 결장 조직 전반에 걸쳐 다양한 메틸화 상태를 갖는 7개의 CpG 부위를 고려해 보자. 단일 CpG 부위가 다른 조직과 비교하여 태반에 특정한 메틸화 상태를 나타내지 않는다는 시나리오를 고려해 보자. 따라서, 다양한 크기를 갖는 혈장 DNA 분자 A, B, C, D 및 E의 기원 조직은 단일 CpG 부위의 메틸화 상태에만 근거하여 결정할 수 없다. 혈장 DNA 분자 A 및 B의 경우, 두 분자의 크기가 비교적 짧기 때문에 각각 3개와 4개의 CpG 부위만 함유한다. 실시형태에서, 하나 초과의 CpG 부위를 함유하는 DNA 분자의 메틸화 패턴은 메틸화 일배체형으로 정의될 수 있다. 도 22에 도시된 바와 같이, 혈장 DNA 분자 A 및 B는 메틸화 일배체형에 기초하여 태반 또는 간에 의해서 기여될 수 있는데, 그 이유는 태반 및 간이 분자 A(위치 1, 2, 및 3) 및 B(위치 1, 2, 3 및 4)에 상응하는 게놈 위치에서 동일한 메틸화 일배체형을 공유하였기 때문이다. 그러나, 분자 C, D, E와 같이 혈장에서 긴 DNA 분자를 얻을 수 있는 경우, 이러한 분자 C, D 및 E는 메틸화 일배체형에 기초하여 태반에서 유래된 것으로 명확하게 결정할 수 있다.

조직에 대한 참조 패턴은 참조 조직으로부터의 메틸화 패턴에 기초할 수 있다. 일부 실시형태에서, 메틸화 패턴은 여러 판독물 및/또는 샘플에 기초할 수 있다. 각각의 CpG 부위에 대한 메틸화 수준(메틸화 지수, MI라고도 불림, 하기에 기재된 바와 같음)을 사용하여 부위가 메틸화되었는지 여부를 결정할 수 있다.

A. 메틸화 패턴에 대한 통계 모델

실시형태에서, 혈장 DNA 분자가 태반에서 유래될 우도는 단일 DNA 분자의 메틸화 일배체형을 다수의 참조 조직의 메틸화 패턴과 비교하여 결정할 수 있다. 긴 혈장 DNA 분자가 이러한 분석에 선호될 수 있다. 긴 DNA 분자는 적어도 비제한적으로 100 bp, 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, 1 kb, 2 kb, 3 kb, 4 kb, 5 kb, 10 kb, 20 kb, 30 kb, 40 kb, 50 kb, 100 kb, 200 kb의 크기를 갖는 DNA 분자로서 정의될 수 있다. 참조 조직은 태반, 간, 폐, 식도, 심장, 췌장, 결장, 소장, 지방 조직, 부신, 뇌, 호중구, 림프구, 호염기구, 호산구 등을 포함할 수 있지만 이들로 제한되지 않는다. 실시형태에서, 단일 분자 실시간 시퀀싱에 의해 결정된 혈장 DNA의 메틸화 일배체형과 참조 조직의 전체 게놈 바이설파이트 시퀀싱을 기반으로 하는 메틸롬 데이터를 상승작용으로 분석함으로써 혈장 DNA 분자가 태반으로부터 유래될 우도를 결정할 수 있다. 예를 들어, 태반 및 버피 코트 샘플은 전체 게놈 바이설파이트 시퀀싱을 사용하여 각각 반수체 게놈의 평균 94배 및 75배 게놈 적용 범위로 시퀀싱되었다. 각각의 CpG 부위의 메틸화 수준(메틸화 지수, MI라고도 함)은 다음 식을 사용하여 시퀀싱된 시토신(즉, C로 표시되는 메틸화됨) 및 시퀀싱된 티민(즉, T로 표시되는 비메틸화됨)의 수를 기반으로 계산되었었다:

CpG 부위는 태반 DNA에서 추론된 MI 값에 기초하여 세 가지 범주로 계층화되었다.

1. MI 값이 70 이상인 범주 A CpG 부위.

2. MI 값이 30 내지 70인 범주 B CpG 부위.

3. MI 값이 30 미만인 범주 C CpG 부위.

유사하게, 버피 코트 DNA로부터 추론된 CpG 부위의 MI 값을 사용하여 CpG 부위를 3개의 범주로 분류하였다:

1. MI 값이 70 이상인 범주 A CpG 부위.

2. MI 값이 30 내지 70인 범주 B CpG 부위.

3. MI 값이 30 미만인 범주 C CpG 부위.

범주는 30 및 70의 MI 컷오프를 사용하였다. 컷오프는 10, 20, 40, 50, 60, 80 또는 90을 포함하는 다른 숫자를 포함할 수 있다. 일부 실시형태에서, 이러한 범주는 참조 조직에 대한 참조 메틸화 패턴을 결정하는 데 사용될 수 있다(예를 들어, 도 22에 설명된 바와 같이 사용하기 위해). 범주 A 부위는 메틸화된 것으로 간주될 수 있다. 범주 C 부위는 메틸화되지 않은 것으로 간주될 수 있다. 범주 B 부위는 정보가 없는 것으로 간주되어 참조 패턴에 포함되지 않을 수 있다.

n CpG 부위를 보유하는 혈장 DNA 분자의 경우, 각각의 CpG 부위에 대한 메틸화 상태는 본 발명자들의 이전 개시내용(미국 출원 제16/995,607호)에 기재된 접근법에 의해 결정되었다. 일부 실시형태에서, 메틸화 상태는 바이설파이트 시퀀싱 또는 나노기공 시퀀싱에 의해 결정될 수 있다. 혈장 DNA 분자가 태반 또는 모성 배경으로부터 유래될 우도를 결정하기 위해, 그 분자의 메틸화 패턴을 태반 및 모 버피 코트 DNA의 이전 메틸화 정보와 함께 분석하였다. 실시형태에서, 본 발명자들은 혈장 DNA 단편에서 메틸화(M)된 것으로 결정된 CpG 부위가 태반의 더 높은 메틸화 지수와 일치하는 경우, 이러한 관찰이 이 분자가 태반으로부터 유래될 가능성이 더 높다는 것을 나타낼 것이라는 원리를 사용하였다. 혈장 DNA 분자에서 메틸화(M)된 것으로 결정된 CpG 부위가 태반의 더 낮은 메틸화 지수와 일치하는 경우, 이러한 관찰은 이 분자가 태반에서 유래될 가능성이 적음을 나타내고; 혈장 DNA에서 메틸화되지 않은 것으로 결정된 CpG 부위(U)가 태반의 더 낮은 메틸화 지수와 일치하는 경우 이러한 관찰이 이 분자가 태반으로부터 유래될 가능성이 더 높다는 것을 나타낼 것이다. 혈장 DNA에서 메틸화되지 않은(U)된 것으로 결정된 CpG 부위가 태반의 더 높은 메틸화 지수와 일치하는 경우, 이러한 관찰이 이 분자가 태반으로부터 유래될 가능성이 더 낮다는 것을 나타낼 것이다.

본 발명자들은 다음과 같은 점수 체계를 구현하였다. 혈장 DNA 단편에 대한 태아 기원의 우도를 반영하는 초기 점수(S)를 0으로 설정하였다. 혈장 DNA 분자의 메틸화 상태를 태반 DNA의 이전 메틸화 정보와 비교할 때,

a. 혈장 DNA 분자의 CpG 부위가 'M'인 것으로 결정되고 태반의 해당 부위가 범주 A 에 속하는 경우, S 에 1점을 추가할 것이다(즉, 점수 단위 1씩 증가).

b. 혈장 DNA 분자의 CpG 부위가 'U'인 것으로 결정되고 태반의 해당 부위가 범주 A 에 속하는 경우, S 에서 1점을 차감할 것이다.(즉, 점수 단위 1씩 감소).

c. 혈장 DNA 분자의 CpG 부위가 'M'인 것으로 결정되고 태반의 해당 부위가 범주 B 에 속하는 경우, S 에 0.5점을 추가할 것이다.

d. 혈장 DNA 분자의 CpG 부위가 'U'인 것으로 결정되고 태반의 해당 부위가 범주 B 에 속하는 경우, S 에 0.5점을 추가할 것이다.

e. 혈장 DNA 분자의 CpG 부위가 'M'인 것으로 결정되고 태반의 해당 부위가 범주 C 에 속하는 경우, S 에서 1점을 차감할 것이다.

f. 혈장 DNA 분자의 CpG 부위가 'U'인 것으로 결정되고 태반의 해당 부위가 범주 C 에 속하는 경우, S 에 1점을 추가할 것이다.

본 발명자들은 상기를 '메틸화 상태 일치'라고 한다.

혈장 DNA 분자의 모든 CpG 부위가 처리된 후, 그 혈장 DNA 분자에 대한 최종 집계 점수 S(태반) 를 얻었다. 실시형태에서, CpG 부위의 수는 적어도 30개일 것이 요구되었고, 혈장 DNA 분자의 길이는 적어도 3 kb일 것이 요구되었다. 본원에 기재된 임의의 것을 포함하지만 이들로 제한되지 않는 다른 수의 CpG 부위 및 길이가 사용될 수 있다.

혈장 DNA 분자의 메틸화 상태를 상응하는 부위에서 버피 코트 DNA의 메틸화 수준과 비교할 때, 유사한 점수 체계가 적용될 것이다. 혈장 DNA 분자의 모든 CpG 부위가 처리된 후, 그 혈장 DNA 분자에 대한 최종 집계 점수 S(버피 코트) 를 얻었다.

S(태반) > S(버피 코트) 인 경우, 혈장 DNA 분자는 태아 기원인 것으로 결정되었고; 그렇지 않으면 혈장 DNA 분자는 모체 기원으로 결정되었다.

혈장 DNA 분자에 대한 태아-모체 기원을 추론하는 성능을 평가하기 위해 17개 및 405개 태아-특이적 및 모-특이적 DNA 분자를 사용하였다. 태아-특이적 분자는 태아-특이적 SNP 대립형질을 보유하는 혈장 DNA 분자인 반면, 모-특이적 DNA 분자는 모-특이적 SNP 대립형질을 보유하는 것이었다.

도 23은 태아 기원의 결정 및 모체 기원의 결정을 위한 리시버 작동 특징 곡선(ROC)을 도시한다. y축은 감도를 나타내고, x축은 특이도를 나타낸다. 적색 선은 본 개시내용에 존재하는 메틸화 상태 매칭 기반 방법을 사용하여 태아 기원 및 모체 기원의 분자를 구별하는 성능을 나타낸다. 청색 선은 단일 분자 메틸화 수준(즉, DNA 분자에서 메틸화되는 것으로 결정된 CpG 부위의 비율)을 사용하여 태아 기원과 모체 기원의 분자를 구별하는 성능을 나타낸다. 도 23은 메틸화 상태 일치 프로세스(0.94)에 대한 리시버 작동 특징 곡선 하 영역(AUC)이 단일 분자 메틸화 수준(0.86)을 기반으로 하는 영역보다 상당히 높다는 것을 나타낸다(P 값 < 0.0001; DeLong 시험). 이는 긴 DNA 분자의 메틸화 패턴 분석이 태아/모체 기원의 결정에 유용할 것이라고 시사하였다.

실시형태에서, 혈장 DNA가 태아 기원인지 모체 기원인지를 결정할 때 S(태반) 와 S(버피 코트) 사이의 차이(Δ S )의 크기를 고려할 수 있다. Δ S 의 절대값은 5, 10, 20, 30, 40, 50 등과 같은 특정 역치를 초과할 것이 요구될 수 있다. 예로서, 본 발명자들이 10을 Δ S 의 역치로 사용했을 때, 태아 DNA 분자 검출에서 양성 예측 값(PPV)은 14.95%에서 91.67%로 개선되었다.

실시형태에서, CpG 부위의 메틸화 상태는 이웃하는 CpG 부위의 메틸화 상태에 의해 영향을 받을 것이다. DNA 분자 상의 임의의 CpG 부위 사이의 뉴클레오타이드 거리가 가까울수록, 두 CpG 부위가 동일한 메틸화 상태를 공유할 가능성이 높다. 이 현상을 공동 메틸화(co-methylation)라고 하였다. 다수의 조직 특이적 CpG 섬 메틸화가 보고되어 있고; 따라서 조직 유래 분석을 위한 일부 통계 모델에서, 동일한 메틸화 상태를 공유하는 CpG 부위의 조밀한 클러스터(예를 들어, CpG 섬)에 더 많은 가중치가 배정될 것이다. 시나리오 'a' 및 'f'의 경우, 조사 중인 현재 CpG 부위가 이전 CpG 부위에 대해 100 bp 이하의 게놈 거리 내에 위치되었고, 메틸화 상태 일치 프로세스의 결과가 이 두 부위에 대해 동일한 경우 연속적인 CpG 부위의 경우 현재 CpG 부위에 대한 점수 S 에 추가 1점이 추가될 것이다. 시나리오 'b' 및 'e의 경우, 조사 중인 현재 CpG 부위가 이전 CpG 부위에 대해 100 bp 이하의 게놈 거리 내에 위치되었고, 메틸화 상태 일치 프로세스의 결과가 이 두 부위에 대해 동일한 경우, 연속적인 CpG 부위의 경우 현재 CpG 부위에 대한 점수 S 에 추가 1점이 차감될 것이다. 그러나, 조사 중인 CpG 부위가 이전 CpG 부위와 비교하여 100 bp 이하의 게놈 거리 내에 위치되었지만 이 두 연속 CpG 부위에 대한 메틸화 상태 일치 프로세스의 결과가 일치하지 않는 경우, 상기에 언급된 기본 점수 체계가 사용될 것이다. 반면에, 조사 중인 현재 CpG 부위가 이전 CpG 부위와 비교하여 100 bp보다 큰 게놈 거리 내에 있는 경우, 기본 매개변수를 사용하여 상기에 언급한 점수 체계가 사용될 것이다. 1이 아닌 점수 및 100 bp가 아닌 거리가 본원에 기재된 임의의 것을 포함하여 사용될 수 있다.

다른 실시형태에서, CpG 부위는 태반 및 버피 코트 DNA로부터 추론된 MI 값에 기초하여 3개 초과의 범주로 계층화되었다. 참조 조직의 이전 메틸화 정보는 단일 분자 실시간 시퀀싱(즉, 나노기공 시퀀싱 및/또는 PacBio SMRT 시퀀싱)에서 추론할 수 있다. 혈장 DNA 분자의 길이는 적어도 비제한적으로 100 bp, 200 bp, 300 bp, 400 bp, 500 bp, 600 bp, 700 bp, 800 bp, 900 bp, 1 kb, 2 kb, 3 kb, 4 kb, 5 kb, 10 kb, 20 kb, 30 kb, 40 kb, 50 kb, 100 kb, 200 kb 등일 것이 요구될 수 있다. CpG 부위의 수는 적어도 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 등일 것이 요구될 있지만, 이에 제한되지 않는다.

실시형태에서, 확률 모델을 사용하여 혈장 DNA 분자의 메틸화 패턴을 특징규명할 수 있다. 혈장 DNA 분자에서 k CpG 부위의 메틸화 상태( k ≥ 1)는 M = ( m ₁ , m ₂ , …, m _k )로 표시되었으며, 여기서 mi 는 혈장 DNA 분자 상의 CpG 부위 i 에서 0(메틸화되지 않은 상태인 경우) 또는 1(메틸화된 상태인 경우)이었다. 실시형태에서, 태반으로부터 유래된 혈장 DNA 분자와 관련된 M의 확률은 태반 조직에서 참조 메틸화 패턴에 따라 좌우될 수 있다. 1, 2, …, k 에서 상응하는 CpG 부위에 대한 태반 조직의 참조 메틸화 패턴은 베타 분포를 따른다. 베타 분포는 Beta(α, β)로 표시되는 두 개의 양의 매개변수 α 및 β로 매개변수화된다. 베타 분포로부터 유래된 값의 범위는 0 내지 1 범위일 것이다. 관심 조직에 대한 하이-뎁쓰(high-depth) 바이설파이트 시퀀싱 데이터를 기반으로, 매개변수 α 및 β는 각각 특정 조직에 대한 각각의 CpG 부위에서 시퀀싱된 시토신(메틸화됨) 및 티민(메틸화되지 않음)의 수에 의해 결정되었다. 태반의 경우, 이러한 베타 분포를 Beta(α^P, β^p)로 표시하였다. 태반으로부터 유래된 혈장 DNA 분자의 확률 P(M | Placenta)는 다음과 같이 모델링될 것이다:

식 중, 'i'는 i번째 CpG 부위를 나타내고;

는 태반에서 i번째 CpG 부위의 메틸화 패턴과 관련된 베타 분포를 나타내고; P 는 k CpG 부위에 걸쳐 주어진 메틸화 패턴을 갖는 관찰된 혈장 DNA 분자의 결합 확률이었다.

버피 코트(즉, 백혈구), P(M | Buffy coat)로부터 유래된 혈장 DNA 분자의 확률은 다음과 같이 모델링될 것이다:

식 중, 'i'는 i번째 CpG 부위를 나타내고;

는 버피 코트 DNA에서 i번째 CpG 부위의 메틸화 패턴과 관련된 베타 분포를 나타내었다. P 는 k CpG 부위에 걸쳐 주어진 메틸화 패턴을 갖는 관찰된 혈장 DNA 분자의 결합 확률이었다.

및

는 태반 DNA 및 버피 코트 DNA 각각의 전체 게놈 바이설파이트 시퀀싱으로부터 결정될 수 있다.

혈장 DNA 분자의 경우, P(M | Placenta) > P(M | buffy coat)를 관찰하면, 이러한 혈장 DNA 분자는 태반으로부터 유래될 가능성이 있을 것이고; 그렇지 않으면 그것은 버피 코트로부터 유래될 가능성이 있을 것이다. 이 모델을 사용하여, 본 발명자들은 0.79의 AUC를 달성하였다.

B. 기계 학습 모델

또 다른 실시형태에서, 기계 학습 알고리즘을 사용하여 특정 혈장 DNA 분자의 태아/모체 기원을 결정할 수 있다. 임신한 여성에서 태아 DNA 분자 및 모 DNA 분자를 분류하기 위해 기계 학습 기반 접근 방식을 사용하는 가능성을 시험하기 위해서, 본 발명자들은 혈장 DNA 분자에 대한 메틸화 패턴의 그래픽 프레젠테이션을 개발하였다.

도 24는 쌍별 메틸화 패턴에 대한 정의를 나타낸다. 9개의 CpG 부위를 혈장 DNA 분자에 나타낸다. 메틸화된 CpG 부위는 적색으로 표시되고 메틸화되지 않은 CpG 부위는 녹색으로 표시된다. 한 쌍의 2개의 CpG 부위가 동일한 메틸화 상태(예를 들어, 첫 번째 CpG 및 다섯 번째 CpG)를 공유하는 경우, 화살표 'a'로 표시된 위치에 표시된 대로 그 쌍은 1로 코딩될 것이다. 한 쌍의 2개의 CpG 부위가 상이한 메틸화 상태(예를 들어, 첫 번째 CpG 및 두 번째 CpG)를 갖는 경우, 화살표 'b'로 표시된 위치에 표시된 대로 그 쌍은 0으로 코딩될 것이다. 동일한 코딩 규칙이 DNA 분자에 있는 2개의 CpG 부위의 모든 쌍에 적용되었다.

본 발명자들은 9개의 CpG 부위를 함유하는 혈장 DNA 분자를 예로 사용하였다. 이 혈장 DNA 분자에 대한 메틸화 패턴은 본 발명자들의 이전 개시내용(미국 출원 제16/995,607호)에 기재된 접근법, 즉 U-M-M-M-U-U-U-M-M(U 및 M은 각각 메틸화되지 않은 CpG 및 메틸화된 CpG를 나타냄)에 의해 결정되었다. 두 CpG 부위 간의 메틸화 상태의 쌍별 비교는 기계 학습 또는 심층 학습 기반 분석에 유용할 수 있다. 이 예에서는 총 36개의 쌍에 동일한 규칙이 적용되었다. 혈장 DNA 분자 상에 총 n 개의 CpG 부위가 존재하였으면, n*(n-1)/2 쌍의 비교가 존재할 것이다. 5, 6, 7, 8, 10, 11, 12, 13 등을 포함하여 상이한 수의 CpG 부위를 사용할 수 있다. 분자가 기계 학습 모델에 사용된 부위의 수보다 더 많이 포함하는 경우, 슬라이딩 윈도우는 부위를 적절한 수의 사이트로 나누는 데 사용될 수 있다.

본 발명자들은 각각 태반 DNA 샘플 및 버피 코트 DNA 샘플로부터 하나 이상의 분자를 얻었다. 이러한 DNA 분자에 대한 메틸화 패턴은 본 발명자들의 이전 개시내용(미국 출원 제16/995,607호)에 기재된 접근법에 따라 Pacific Bioscience(PacBio) 단일 분자 실시간(SMRT) 시퀀싱에 의해 결정되었다. 이러한 메틸화 패턴은 쌍별 메틸화 패턴으로 번역되었다.

태반 DNA와 연관된 쌍별 메틸화 패턴 및 버피 코트 DNA와 연관된 쌍별 메틸화 패턴은 잠재적으로 태아 기원과 모체 기원의 분자를 구별하기 위한 컨볼루션 신경망(CNN) 훈련에 사용되었다. 태반으로부터의 DNA 단편에 대한 각각의 목표 출력(즉, 종속 변수 값과 유사)은 '1'로 할당된 반면, 버피 코트의 DNA 단편에 대한 각 목표 출력은 '0'으로 할당되었다. 쌍별 메틸화 패턴은 CNN 모델에 대한 매개변수(종종 가중치라고 함)를 결정하기 위한 훈련에 사용되었다. DNA 단편의 태아-모체 기원을 구별하기 위한 CNN의 최적 매개변수는 시그모이드(sigmoid) 함수에 의해서 계산된 출력 점수와 목적하는 목표 출력(이진 값: 0 또는 1) 간의 전체 예측 오차가 반복적으로 모델 매개변수를 조정함으로써 최소에 도달했을 때 얻어졌다. 전체 예측 오차는 심층 학습 알고리즘(https://keras.io/)에서 시그모이드 교차 엔트로피 손실 함수에 의해서 측정하였다. 훈련 데이터 세트로부터 학습된 모델 매개변수는 DNA 분자(예컨대, 혈장 DNA 분자)를 분석하여 DNA 분자가 태반 또는 버피 코트에서 유래할 우도를 나타낼 확률적 점수를 출력하는 데 사용되었다. 혈장 DNA 단편의 확률적 점수가 특정 역치를 초과하면 그러한 혈장 DNA 분자는 태아 기원으로 간주되었다. 그렇지 않으면 그것은 모체 기원으로 간주될 것이다. 역치는 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 0.95, 0.99 등을 포함할 것이지만 이들로 제한되지 않는다. 일례에서, 이러한 CNN 모델을 사용하여, 본 발명자들은 혈장 DNA 분자가 태아 기원인지 모체 기원인지를 결정하기 위한 0.63의 AUC를 달성하였는데, 이는 심층 학습 알고리즘을 사용하여 모 혈장으로부터 DNA 분자의 기원 조직을 추론할 수 있음을 나타낸다. 더 많은 단일 분자 실시간 시퀀싱 결과를 얻음으로써, 심층 학습 알고리즘의 성능이 더욱 향상될 것이다.

일부 다른 실시형태에서, 통계 모델은 선형 회귀, 로지스틱 회귀, 심층 순환 신경망(예를 들어, 긴 단기간 메모리, LSTM), 베이지 분류, 은폐 마르코프 모델(HMM), 선형 구별 분석(LDA), k-평균 클러스터링, 노이즈를 갖는 분야의 밀도 기반 공간 클러스터링(DBSCAN), 랜덤 포레스트 알고리즘 및 서포트 벡터 머신(SVM) 등을 포함할 수 있지만, 이들로 제한되지 않았다. 이항 분포, 베르누이 분포, 감마 분포, 정규 분포, 포아송 분포 등을 포함하지만 이들로 제한되지 않는 상이한 통계 분포가 포함될 수 있다.

C. 태반 특이적인 메틸화 일배체형

단일 DNA 분자 상의 각각의 CpG 부위의 메틸화 상태는 본 발명자들의 이전 개시내용(미국 출원 제16/995,607호)에 기재된 접근법 또는 본원에 기재된 임의의 기술을 사용하여 결정될 수 있다. 단일 분자, 이중 가닥 DNA 메틸화 수준 외에도, 각각의 DNA 분자의 단일 분자 메틸화 패턴을 결정할 수 있는데, 이는 단일 DNA 분자를 따라 인접한 CpG 부위의 메틸화 상태의 순서일 수 있다.

상이한 DNA 메틸화 시그니처가 상이한 조직 및 세포 유형에서 발견될 수 있다. 실시형태에서, 단일 분자 메틸화 패턴을 기반으로 개별 혈장 DNA 분자의 기원 조직을 추론할 수 있다.

10개의 버피 코트 샘플 및 6개의 태반 조직 샘플의 게놈 DNA를 SMRT 시퀀싱(PacBio)을 사용하여 시퀀싱하였다. 각각의 샘플 유형에서 매핑된 고품질 순환 공통 시퀀싱(CCS: Circular Consensus Sequencing) 판독물을 함께 풀링함으로써, 본 발명자들은 버피 코트 DNA 및 태반 DNA에 대해 각각 58.7배 및 28.7배 범위를 달성할 수 있었다.

슬라이딩 윈도우 접근법을 사용함으로써, 게놈은 5개의 CpG 부위의 대략 2,820만 개의 중첩 윈도우로 분할되었다. 다른 실시형태에서, 비제한적으로 2, 3, 4, 5, 6, 7 및 8개의 CpG 부위와 같은 상이한 윈도우 크기가 사용될 수 있다. 중첩되지 않은 윈도우 접근 방식을 사용할 수도 있다. 각각의 윈도우는 잠재적인 마커 영역으로 간주되었다. 각각의 잠재적인 마커 영역에 대해, 본 발명자들은 그 마커 영역 내의 모든 5개 CpG 부위를 포함하는 모든 시퀀싱된 태반 DNA 분자 중에서 우세한 단일 분자 메틸화 패턴을 확인하였다. 혈장 DNA 분자의 CpG 부위와 참조 조직의 개별 DNA 분자의 상응하는 CpG 부위를 비교할 것이다. 그런 다음 단일 분자 메틸화 패턴을 태반의 주요 단일 분자 메틸화 패턴과 비교하여 동일한 마커 영역 내의 모든 CpG 부위를 포함하는 각각의 버피 코트 DNA 분자에 대한 불일치 점수를 계산하였다.

여기서 불일치 CpG 부위의 수는 태반의 우세한 단일 분자 메틸화 패턴과 비교하여 버피 코트 DNA 분자에서 다른 메틸화 상태를 나타내는 CpG 부위의 수를 지칭한다.

더 높은 불일치 점수는 버피 코트 DNA 분자의 메틸화 패턴이 태반에서 우세한 단일 분자 메틸화 패턴과 더 다르다는 것을 나타낸다. 2,820만 개의 잠재적 마커 영역 중에서, 다음 기준을 사용하여 태반으로부터의 DNA 분자 풀과 버피 코트로부터의 DNA 분자 풀 사이의 단일 분자 메틸화 패턴에서 상당한 차이를 나타내는 것을 선택하였다: a) 태반 DNA 분자 중 50% 초과는 우세한 단일 분자 메틸화 패턴을 가졌고; b) 버피 코트 DNA 분자의 80% 초과는 0.3보다 큰 불일치 점수를 가졌다. 이러한 기준에 따라, 다운스트림 분석을 위해 281,566개의 마커 영역을 선택하였다.

도 25는 상이한 염색체들 사이에서 선택된 마커 영역의 분포의 표이다. 제1 열은 염색체 수를 나타낸다. 제2 열은 염색체 내의 마커 영역 수를 나타낸다.

본 발명자들은 본 개시내용에서 이전에 기재된 바와 같이 태아-특이적 대립형질 또는 모-특이적 대립형질을 포함한 SMRT 시퀀싱으로 시퀀싱된 혈장 DNA 분자를 사용하여 단일 분자 메틸화 패턴을 기반으로 하는 개별 혈장 DNA 분자에 대한 기원 조직 분류의 개념을 설명한다. 태반에서 우세한 단일 분자 메틸화 패턴과 동일한 메틸화 패턴을 갖는 선택된 마커 영역을 포함하는 임의의 혈장 DNA 분자는 태반 특이적(즉, 태아-특이적) DNA 분자로 분류될 것이다. 반대로, 혈장 DNA 분자의 단일 분자 메틸화 패턴이 태반 내의 우세한 단일 분자 메틸화 패턴과 동일하지 않은 경우, 이 분자를 태반에 특이적이지 않은 것으로 분류할 것이다. 이 분석에서 정확한 분류는, 태반 특이적 메틸화 일배체형이 그 분자에 존재하는지 여부에 따라서, 태아-특이적 DNA 분자가 태아 유래(즉, 태반에 특이적)인 것으로 식별되었고, 모 DNA 분자가 태아 유래가 아닌 것(즉, 태반에 비특이적임)으로 식별되는 방식으로 정의되었다. 기원 조직 분석을 위한 이전의 메틸화 기반 방법은 전형적으로 생물학적 샘플 내에서 세포유리 DNA의 조직 기여자 범위의 백분율 또는 비례 기여도를 디콘볼루팅하는 것과 관련되었다. 이전 방법에 비해 본 방법의 장점은, 생물학적 샘플, 예를 들어, 모 혈장 내의 태반 유래 DNA에 대한 조직의 세포유리 DNA 기여의 증거가 다른 조직으로부터의 기여의 유무에 관계없이 결정될 수 있다는 것이다. 추가로, 임의의 하나의 세포유리 DNA 분자의 태반 기원은 그 조직으로부터의 세포유리 DNA 분자의 분율 기여도에 관계없이 본 방법으로 결정될 수 있었다.

태아-특이적 대립형질을 포함하는 있는 28개의 DNA 분자 중 17개(61%)는 태반에 특이적인 것으로 분류되었고, 11개(39%)는 태반에 특이적이지 않은 것으로 분류되었다. 한편, 모-특이적 대립형질을 포함하는 467개의 DNA 분자 중 433개(93%)는 태반에 특이적이지 않은 것으로 분류되었고, 34개(7%)는 태반에 특이적인 것으로 분류되었다.

실시형태에서, 60%, 70%, 75%, 80%, 85% 및 90% 등을 포함하지만 이들로 제한되지 않는 역치로서 0.3보다 큰 불일치 점수를 갖는 버피 코트 DNA 분자의 다른 백분율을 사용할 수 있다. 마커 영역 선택에 사용된 기준을 조정함으로써 임신한 대상에서 혈장 DNA의 태반 기원 또는 비태반 기원에 대한 전반적인 분류 정확도를 향상시킬 수 있다. 이것은 질환을 유발하는 돌연변이 또는 카피 수 이상이 태아에 존재하는지 여부를 결정하려고 시도할 때 비침습적 산전 검사 설정에서 특히 중요하다.

도 26은 마커 영역에 대한 선택 기준으로서 0.3보다 큰 불일치 점수를 갖는 버피 코트 DNA 분자의 상이한 백분율을 사용하여 단일 분자 메틸화 패턴에 기초한 혈장 DNA 분자의 분류의 표이다. 제1 열은 0.3% 초과의 불일치 점수를 갖는 버피 코트 DNA 분자의 백분율을 나타낸다. 제2 열은 DNA 분자를 태아-특이적 대립형질과 모-특이적 대립형질을 포함하는 분자로 나눈다. 제3 열 및 제4 열은 단일 분자 메틸화 패턴을 기반으로 하는 태반 특이적이거나 또는 태반 특이적이지 않은 DNA 분자의 분류를 나타낸다. 제5 열은 제2 열의 특정 대립형질과 동일하게 분류된 DNA 분자의 백분율을 나타낸다.

도 27은 비침습적 방식으로 태아 유전을 결정하기 위해 태반-특이적 메틸화 일배체형을 사용하기 위한 공정 흐름을 나타낸다. 도 27에 도시된 바와 같이, 단일 분자 실시간 시퀀싱을 위해 임신한 여성의 혈장에서 세포유리 DNA를 추출하였다. 긴 혈장 DNA 분자를 본 개시내용의 실시형태에 따라 식별하였다. 각각의 긴 혈장 DNA 분자에 대한 각각의 CpG 부위에서의 메틸화 상태를 본 개시내용의 실시형태에 따라 결정하였다. 각각의 긴 혈장 DNA 분자의 메틸화 일배체형을 본 개시내용의 실시형태에 따라 결정하였다. 긴 혈장 DNA 분자가 태반 특이적 메틸화 일배체형을 갖고 있는 것으로 확인되면, 그 분자와 관련된 유전적 및 후성적 정보는 태아에게 유전되는 것으로 간주될 것이다. 실시형태에서, 임신한 여성이 보유하는 질환 유발 돌연변이와 동일한 질환 유발 돌연변이를 함유하는 하나 이상의 긴 혈장 DNA 분자가 본 개시내용의 실시형태에 따른 메틸화 일배체형 정보에 기초하여 태아 기원일 것이라고 결정된 경우, 태아가 어머니로부터 돌연변이를 유전하였다는 것을 시사할 것이다.

유전 질환에 적용될 수 있는 실시형태는 베타 지중해 빈혈, 겸상 적혈구 빈혈, 알파 지중해 빈혈, 낭포성 섬유증, 혈우병 A, 혈우병 B, 선천성 부신 과형성, 뒤센느 근이영양증, 베커 근이영양증, 연골무형성증, 타나토포릭 이형성증, 폰 빌레브란트병, 누난 증후군, 유전성 난청 및 귀먹음, 다양한 선천성 대사 이상(예를 들어, 시트룰린혈증 I형, 프로피온산혈증, 글리코겐 저장 질환 유형 Ia(폰기르케씨병(von Gierke disease)), 글리코겐 저장 질환 유형 Ib/c(폰기르케씨병), 글리코겐 저장 질환 유형 II(폼페병), 점액다당류증(MPS) 유형 I(휠러/휠러-쉐이/쉐이(Hurler/Hurler-Scheie/Scheie)), MPS 유형 II(헌터 증후군), MPS, 유형 IIIA(신필리포 증후군 A), MPS 유형 IIIB( 산필리포 증후군 B), MPS 유형 IIIC(산필리포 증후군 C), MPS 유형 IIID(산필리포 증후군 D), MPS 유형 IVA(모르퀴오 증후군 A), MPS 유형 IVB(모르퀴오 증후군 B), MPS 유형 VI(마로토-라미 증후군), MPS 유형 VII(슬라이 증후군), 점액지질증 II(I-세포 질환), 이색성 백혈이영양증, GM1 강글리오시드증, OTC 결핍(X-연관 오르니틴 트랜스카르바밀라제 결핍증), 부신백질이영양증(X-연관 ALD), 크라베병(구형 세포 백혈이영양증)) 등을 포함하지만 이들로 제한되지 않는다.

다른 실시형태에서, 태아의 유전 질환은 부모 게놈에는 존재하지 않는 태아 게놈의 신생 DNA 메틸화와 연관될 수 있다. 예는 취약 X 증후군이 있는 태아에서 FMRP 번역 조절인자 1(FMR1) 유전자의 과메틸화일 것이다. 취약 X 증후군은 FMR1 유전자의 5' 미번역 영역에서 CGG 트리뉴클레오타이드 반복의 확장으로 인해 발생한다. 정상 대립형질은 CGG 반복부의 약 5 내지 44개 카피를 포함한다. 전돌연변이(premutation) 대립형질은 CGG 반복부의 55 내지 200개 카피를 포함한다. 완전 돌연변이 대립형질은 CGG 반복부의 200개 초과의 카피를 포함한다.

도 28은 정상 또는 전돌연변이 대립형질을 보유하는 영향을 받지 않은 임신한 여성의 남자 태아에서 취약 X 증후군의 비침습적 산전 검출의 원리를 예시한다. 도 28에서, 'n'은 모 게놈에서 CGG의 카피의 수를 나타내고; 'm'은 태아 게놈에서 CGG 카피의 수를 나타낸다. 영향을 받지 않은 임신한 여성의 게놈은 200개 이하의 카피(즉, n ≤ 200)의 CGG 반복부를 갖고, 메틸화되지 않은 FMR1 유전자를 보유할 것이다. 이에 반해, 취약 X 증후군의 영향을 받는 남자 태아의 게놈은 200개 초과의 CGG 반복부의 카피(m > 200)를 갖고, 메틸화된 FMR1 유전자를 보유할 것이다. 모 혈장 DNA의 단일 분자 시퀀싱을 수행하여 반복부의 수 및 메틸화 상태가 동시에 결정될 수 있는 관심 게놈 영역(예를 들어, FMR1 유전자)에서 긴 DNA 분자 수를 식별할 수 있다. 영향을 받지 않은 여성의 혈장에서 CGG 반복부의 200개 초과의 카피를 함유하고 메틸화된 FMR1 유전자를 포함하는 하나 이상의 DNA 분자가 식별되면, 태아가 취약 X 증후군을 가질 가능성이 있음을 나타낼 것이다. 또 다른 실시형태에서, 본 개시내용의 실시형태에 따른 태반-특이적 메틸화 일배체형을 사용하여 이러한 혈장 DNA 분자의 태아 기원을 추가로 확인할 수 있다. 태반 특이적 메틸화 일배체형을 보유한 한 분자 내의 하나 이상의 영역을 함유하는 하나 이상의 분자를 식별하고 이러한 분자가 FMR1 유전자를 포함하고 200개 초과의 CGG 반복부의 카피를 함유하고 메틸화되었으면, 태아가 취약 X 증후군을 갖는다고 더 확실하게 결론내릴 수 있다. 반대로, 태반-특이적 메틸화 일배체형을 보유한 하나 이상의 분자를 식별하고 이러한 분자가 FMR1 유전자를 포함하고 CGG 반복부의 200개 미만의 카피를 함유하고 메틸화되지 않으면, 태아가 영향을 받지 않을 가능성이 있을 것이라는 것을 나타낼 것이다. 취약 X 증후군의 경우, 전체 돌연변이(200개 초과의 반복부)는 실제로 전체 유전자가 메틸화되고, 유전자 기능을 차단한다. 따라서, 특히 취약한 X의 경우 메틸화된 긴 대립형질의 검출(태반 메틸화 프로필을 나타내기 보다는)은 태아에게 질환이 있음을 시사할 것이다.

유전 장애의 발견은 산모의 이전 상태를 알거나 모른 채 수행될 수 있다. 전돌연변이가 있는 여성은 증상이 없을 수 있지만, 일부는 경미한 증상을 보일 수 있으며 종종 뒤늦게 알게 된다. 모체의 돌연변이 상태를 모르는 경우 한 가지 접근법은 질환이 없는 것으로 보이는 여성으로부터의 혈장에서 긴 대립형질을 검출하거나 모 버피 코트를 분석하고 그것이 그러한 긴 대립형질을 나타내지 않는다는 것을 결정하는 것이다. 또 다른 접근법으로서, 본 발명자들은 반복 길이와 cfDNA 분자의 메틸화 상태를 조합할 수 있다. 메틸화 상태가 태아 패턴(메틸화된 일배체형)을 시사하고 긴 대립형질을 나타내는 경우, 태아는 영향을 받을 가능성이 있다. 이 접근법은 헌팅턴병과 같은 다수의 트리뉴클레오타이드 장애에 적용할 수 있다.

D. 긴 혈장 DNA 분자를 사용한 태아 게놈의 비침습적 작제

메틸화 패턴을 사용하여 일배체형의 유전을 결정할 수 있다. 메틸화 패턴을 사용한 정성적 접근을 사용한 일배체형 유전의 결정은 특정 단편의 양을 특징규명하는 정량적 방법보다 더 효율적일 수 있다. 메틸화 패턴을 사용하여 일배체형의 모계 유전 및 부계 유전을 결정할 수 있다.

1. 태아의 모계 유전

로(Lo) 등은 모의 일배체형 정보를 사용하여 전체 게놈 유전자 지도를 작제하고, 모 혈장 DNA 서열로부터의 태아의 돌연변이 상태를 결정하는 가능성을 입증하였다(문헌[Lo et al. Sci Transl Med. 2010;2:61ra91]). 이 기술은 상대 일배체형 용량(RHDO) 분석이라고 하며, 태아의 모계 유전을 해결하기 위한 하나의 접근법이다. 이 원리는 태아에게 유전되는 모 일배체형이 태아에게 전달되지 않는 다른 모 일배체형과 비교할 때 임산부의 혈장 DNA에서 비교적 과도하게 표현된다는 사실에 기초하였다. 따라서 RHDO는 정량적 분석 방법이다.

본 개시내용에 존재하는 실시형태는 혈장 DNA 분자의 기원 조직을 결정하기 위해 긴 혈장 DNA 분자에서 메틸화 패턴을 이용한다. 일 실시형태에서, 본원의 개시는 태아의 모계 유전의 정성적 분석을 허용할 것이다.

도 29는 태아의 모계 유전을 결정하는 예를 나타낸다. 게놈 위치 P 는 모 게놈(A/G)에서 이형접합성이었다. 채워진 원은 메틸화된 부위를 나타내고, 빈 원은 비메틸화된 부위를 나타낸다. 태반의 메틸화 패턴은 "-M-U-M-M-"이었고, 여기서 "M"은 메틸화된 시토신을 나타내고 "U"는 CpG 부위에서 메틸화되지 않은 시토신을 나타낸다. 일 실시형태에서, 태반 및 관련 참조 조직에서의 메틸화 패턴은 시퀀싱(예를 들어, 단일 분자 실시간 시퀀싱 및/또는 바이설파이트 시퀀싱)으로부터 이전에 생성된 데이터로부터 얻어질 수 있다. 혈장 DNA에서 특정 게놈 유전자좌에서 A의 대립형질을 보유하는 하나의 비-부계 혈장 DNA(Z로 표시됨)가 다른 조직의 메틸화 패턴과 상반되는 바와 같이 태반의 메틸화 패턴과 양립할 수 있는 메틸화 패턴("-M-U-M-M-")을 나타내는 것으로 밝혀졌다. 태반의 메틸화 패턴과 양립할 수 있는 메틸화 패턴을 나타내는 G의 대립형질을 보유하는 분자는 발견되지 않았다. 따라서, 대립형질 A와 "-M-U-M-M-" 메틸화 패턴의 존재에 기초하여, 태아는 모 대립형질 A를 유전하는 것으로 결정될 수 있다.

도 30은 혈장 DNA 분자의 유전적 및 후성적 정보를 이용하여 태아의 모계 유전에 대한 정성적 분석을 나타낸다. 도 30의 상부 브랜치에 도시된 바와 같이, 혈장 DNA가 추출된 후, 본 개시내용의 실시형태에 따른 긴 DNA에 대한 크기 선택이 이어졌다. 크기-선택된 혈장 DNA 분자를 단일 분자 실시간 시퀀싱(예를 들어, Pacific Biosciences에서 제조한 시스템 사용)에 적용하였다. 유전적 및 후성적 정보를 본 개시내용의 실시형태에 따라 결정하였다. 설명을 위해, 분자(X)를 염색체 위치 a(chr1:a)에 G의 대립형질을 함유하고 염색체 위치 e(chr1:e)에 A의 대립형질을 함유하는 인간 염색체 1에 정렬하였다. 분자 X는 염색체 위치 d에 C의 대립형질을 갖는다.

이 분자 X의 CpG 메틸화 상태는 "-M-U-M-M-"인 것으로 결정되었으며, 여기서 "M"은 메틸화된 시토신을 나타내고 "U"는 CpG 부위에서 메틸화되지 않은 시토신을 나타낸다. 채워진 원은 메틸화된 부위를 나타내고, 빈 원은 비메틸화된 부위를 나타낸다. 참조 샘플을 분석한 결과로서, 태반 DNA는 a와 e 사이의 영역에서 "-M-U-M-M-"의 메틸화 패턴을 갖는 것으로 알려져 있다. 태반 DNA의 메틸화 패턴과 일치하는 분자 X의 메틸화 패턴에 기초하여, 분자 X는 본 개시내용의 실시형태에 따라 태반 기원인 것으로 결정되었다.

도 30의 하부 브랜치에 도시된 바와 같이, 모 백혈구의 DNA를 단일 분자 실시간 시퀀싱에 적용하였다. 모 백혈구의 후성적 및 유전적 정보는 본 개시내용의 실시형태에 따라 획득되었다. 유전적 대립형질은 WhatsHap(문헌[Patterson et al. J Comput Biol. 2015;22:498-509]), HapCUT(문헌[Bansal et al. Bioinformatics. 2008;24:i153-9]), HapCHAT(문헌[Beretta et al. BMC bioinformatics. 2018;19:252]) 등을 포함하지만 이에 제한되지 않는 방법을 사용하여 모 일배체형 I(Hap I) 및 모 일배체형 II(Hap II)의 두 가지 일배체형으로 페이징되었다. 본 발명에서, 본 발명자들은 두 가지 일배체형, 즉 "- A-C-G-T-"(Hap I) 및 "-G-T-A-C-"(Hap II) 모 게놈을 얻었다. Hap I은 야생형 변이체(들)와 연관되어 있는 반면 Hap II는 질환-연관 변이체(들)와 관련되어 있다. 질환-연관 변이체(들)는 단일 뉴클레오타이드 변이체, 삽입, 결실, 전위, 역위, 반복 확장 및/또는 기타 유전적 구조적 변이를 포함할 수 있지만 이들로 제한되지 않다.

게놈 위치 e의 경우, 모 유전자형은 AA로, 부계 유전자형은 GG로 결정되었다. 메틸화 패턴으로 인해 혈장 DNA 분자 X는 태반 기원으로 결정되었다. 모-특이적 대립형질 A는 존재하지만 부계 특이적 대립형질 G가 존재하지 않기 때문에, 분자 X는 따라서 모 일배체형 중 하나로부터 유전되는 것으로 추론된다.

어느 모 일배체형이 태아에게 전달되었는지 추가로 결정하기 위해, 본 발명자들은 이 태반 유래 분자 X의 위치 chr1:e 이외의 게놈 위치에서 대립형질 정보를 모 일배체형과 비교하였다. 예를 들어, 분자 X는 위치 a에 대립형질 G를 갖고, 위치 d에 대립형질 C를 갖는다. 분자 X에 이러한 대립형질 중 하나가 존재한다는 것은 분자 X가 동일한 대립형질을 포함하는 모 Hap II에 지정되어야 함을 나타낸다.

따라서 질환-연관 변이체(들)와 관련된 모 일배체 II형이 태아에게 전달되었다고 결론지을 수 있다. 태어나지 않은 태아는 질환에 영향을 받을 위험이 있는 것으로 결정되었다.

태아의 모계 유전에 대한 메틸화 패턴 기반 정성 분석은, 정량 분석에 기초한 접근인 RHDO와 비교하여, 어느 모 일배체형이 태아에 의해 유전되었는지에 대한 결론을 내리기 위해 더 적은 혈장 DNA 분자를 요구할 수 있다. 본 발명자들은 분석에 사용된 상이한 수의 혈장 DNA 분자를 사용하여 게놈 차원에서 태아의 모계 유전에 대한 검출률을 평가하기 위해 컴퓨터 시뮬레이션 분석을 수행하였다.

RHDO 시뮬레이션 분석을 위해, N 혈장 DNA 분자를 모 게놈의 일배체형 블록에서 M 이형접합성 SNP에 집합적으로 정렬하였다. 태아 DNA 분율은 f였다. 상응하는 SNP에 대한 부계 유전자형은 동형접합성이었고, 태아에게 전달된 모 Hap I과 동일하였다. N개의 혈장 DNA 분자 중에서, 모 Hap I에 정렬된 혈장 DNA 분자의 평균은 N×(0.5 + f/2)인 반면, 모 Hap II에 정렬된 혈장 DNA 분자의 평균은 N×(0.5 - f/2)일 것이다. 본 발명자들은 일배체형으로부터 샘플링된 혈장 DNA 분자가 이항 분포를 따른다고 가정하였다.

혈장 DNA 분자의 수는 하기 분포에 따라 Hap I(즉, X)에 할당되었다:

X ~ Bin(N, 0.5 + f/2) (1),

여기서 "Bin"은 이항 분포를 나타내었다.

혈장 DNA 분자의 수는 하기 분포에 따라 Hap II(즉, Y)에 할당되었다:

Y ~ Bin(N, 0.5 - f/2) (2).

따라서, 모 Hap I에 할당된 혈장 DNA 분자는 모 Hap II와 비교하여 모 혈장에서 비교적 과대하게 표현될 것이다. 과대 표현이 통계적으로 유의미한지 여부를 결정하기 위해, 본 발명자들은 2개의 일배체형(X' 및 Y'로 표시)이 혈장에서 동일하게 표현된다는 귀무 가설과 두 모 일배체형 간의 혈장 DNA 수의 차이를 비교하였다.

X' ~ Bin(N, 0.5) (3),

Y' ~ Bin(N, 0.5) (4).

본 발명자들은 하기와 같이 2개의 일배체형 사이의 상대적 용량 차이를 추가로 정의하였다:

D=(X-Y)/N (5),

D'=(X'-Y')/N (6).

일례에서, 상대적 일배체형 용량을 반영하는 통계 D를 하기와 같이 D'(SD)의 표준 편차에 의해 정규화된 D'(M)의 평균(즉, z-점수)과 비교하였다:

z-점수= (D - M)/SD (7).

3 초과의 z-점수는 Hap I이 태아에게 전달되었음을 나타내었다.

RHDO 분석을 위해, 식 (1) 내지 (7)을 기반으로 Hap I이 태아에게 전달되는 전체 게놈에 걸쳐 30,000개의 일배체형 블록을 시뮬레이션하였다. 일배체형 블록의 평균 길이는 100 kb였다. 각각의 일배체형 블록은 평균 100개의 SNP를 함유하였는데, 그 중 10개의 SNP가 일배체형 불균형에 기여하는 데 유용하다. 일례에서, 태아 DNA 분율은 10%이고, 단편 크기의 중간값은 150 bp였다. 본 발명자들은 RHDO 분석에 사용되는 혈장 DNA 분자의 수를 100만 내지 3억의 범위로 달라지게 함으로써, 본원에서 검출률이라고 지칭되는 z-점수가 3을 초과하는 일배체형 블록의 백분율을 계산하였다. 본원에서 혈장 DNA 분자의 수는 포아송 분포에 따라 정보가 있는 SNP 부위를 포함하는 혈장 DNA의 확률에 의해 조정되었다.

태아의 모계 유전에 대한 정성적 분석 기반 메틸화 패턴과 관련된 컴퓨터 시뮬레이션의 경우, 본 발명자들은 설명을 위해 다음과 같이 가정하였다:

1) 분석에 사용된 모 게놈에서 일배체형 블록을 포함하는 N개의 혈장 DNA 분자가 있었다.

2) 적어도 3 kb 길이의 조직 유래 분석에 사용된 혈장 DNA 단편의 확률은 a 로 표시하였다.

3) 10개 초과의 CpG 부위를 보유하는 혈장 DNA 분자의 확률은 b 로 표시하였다.

4) 3 kb 초과의 단편의 태아 DNA 분율은 f 로 표시하였다.

본 개시내용의 일 실시형태에서 예시된 바와 같이 적어도 10개의 CpG 부위를 갖는 3 kb 초과의 혈장 DNA 분자에 대한 기원 조직의 정확한 추론을 달성할 수 있다. 상기 기준(Z)을 충족하는 혈장 DNA 분자의 수는 평균값이 λ(즉, N × a × b × f )인 푸아송 분포를 따르는 것으로 가정하였다.

Z ~ Poisson (λ) (8).

일례에서, 식 (8)에 기초하여 본 발명자들은 Hap I이 태아에게 전달된 30,000개의 일배체형 블록을 시뮬레이션하였다. 각각의 일배체형 블록의 평균 길이는 100 kb였다. 각각의 일배체형 블록은 평균 100개의 SNP를 함유하였고, 그 중 20개의 이형접합성 SNP는 2개의 모 일배체형으로 페이징될 것이다. 태아 DNA 분율은 1%였다. 크기 선택 후 크기가 3 kb를 초과하는 혈장 DNA 분자는 40%였다. 크기가 3 kb를 초과하는 혈장 DNA 분자의 87.1%가 적어도 10개의 CpG 부위를 보유하였다. Z 값이 1 이상인 일배체형 블록의 백분율은 검출율을 나타낸다. 본 발명자들은 100만 내지 3억 범위의 메틸화 패턴에 의한 조직 유래 분석에 사용되는 혈장 DNA 분자의 수( N )를 다양하게 하여 컴퓨터 시뮬레이션을 수 회 반복하였다. 본원에서 혈장 DNA 분자의 수는 포아송 분포에 따라 이형접합성 SNP를 포함하는 혈장 DNA의 확률에 의해 추가로 조정되었다.

도 31은 RHDO(Relative Haplotype Dose) 분석과 비교하여 혈장 DNA 분자의 유전적 및 후성적 정보를 이용하여 게놈 전체 방식으로 태아의 모계 유전에 대한 정성적 분석의 검출률을 나타낸다. 분석에 사용된 분자의 수는 x축에 표시된다. 태아의 모계 유전의 검출률을 백분율로 y축에 나타낸다. 태아의 모계 유전에 대한 검출률은 RHDO에 비해 메틸화 패턴에 기초한 접근을 사용한 경우 더 높았다. 예를 들어, 1억 개의 단편을 사용할 때, 메틸화 패턴에 따른 검출률은 100%인 반면 RHDO 기반의 검출률은 단지 55%였다. 이러한 결과는, 메틸화 패턴 기반 방법을 사용하여 태아의 모계 유전을 추론하는 것이 RHDO를 기반으로 한 것보다 우수함을 시사하였다.

2. 태아의 부계 유전

분석을 위해 긴 혈장 DNA 분자를 얻을 수 있는 능력은, 동일한 수의 짧은 DNA 분자를 사용하는 것에 비해서 긴 DNA 분자를 사용하는 경우에 비해 전체 게놈 범위가 증가하기 때문에 임산부의 혈장 DNA에서 부계 특이적 변이체의 검출률을 향상시키는 데 유용할 수 있다. 본 발명자들은 다음 가정을 기반으로 컴퓨터 시뮬레이션을 추가로 수행하였다:

1) 태아 DNA 분율은 혈장 DNA 길이 L 에 따라 f 였다. 이것은 아래 첨자 L 이 L bp 길이를 갖는 혈장 DNA 분자가 분석에 사용되었음을 나타내는 fL로 다시 기재되었다.

2) 모 혈장 DNA에서 확인되어야 하는 부계 특이적 변이체의 수는 V 였다.

3) 분석에 사용된 혈장 DNA 분자의 수는 N 이었다.

4) 특정 게놈 유전자좌 또는 영역에서 유래하는 혈장 DNA 분자의 수는 푸아송 분포를 따랐다.

일례에서, 150 bp, 1 kb 및 3 kb 크기의 혈장 DNA 분자의 태아 DNA 분율은 각각 10%(f _150bp = 0.1), 2%(f _1kb = 0.02) 및 1%(f _3kb = 0.01)였다. 부계-특이적 변이체의 수는 게놈에서 250,000(V=250,000)이었다. 분석에 사용된 혈장 DNA 분자의 수(N)는 5천만 내지 5억 개 사이였다.

도 32는 분석에 사용된 상이한 크기를 갖는 시퀀싱된 혈장 DNA 분자의 수와 게놈 전체 방식의 부계-특이적 변이체의 검출률과의 관계를 나타낸다. 분석에 사용된 시퀀싱된 분자의 수는 수백만 단위로 x축에 표시된다. 검출된 부계-특이적 변이의 백분율을 y축에 표시한다. 다른 곡선은 분석에 사용된 다양한 크기의 DNA 단편을 나타내고, 상단은 3 kb, 중간은 1 kb, 하단은 150 bp이다. 분석에 사용된 혈장 DNA 분자가 길수록 부계-특이적 변이체의 검출률이 더 높아질 수 있다. 예를 들어, 4억 개의 혈장 DNA 분자를 사용하여, 각각 150 bp, 1 kb 및 3 kb 크기의 분자에 초점을 맞출 때 검출률은 각각 86%, 93% 및 98%였다.

다른 실시예에서, 베르누이 분포, 베타-정규 분포, 정규 분포, 콘웨이-맥스웰-포아송(Conway-Maxwell-Poisson) 분포, 기하 분포 등을 포함하지만 이들로 제한되지 않는 다른 분포가 사용될 수 있다. 일부 실시형태에서, 깁스 샘플링 및 베이즈 정리가 모계 및 부계 유전 분석을 위해 사용될 것이다.

3. 취약 X 유전 분석

실시형태에서, 태아의 모계 유전의 메틸화 패턴 기반 결정은 모 혈장 DNA의 단일 분자 실시간 시퀀싱을 사용하여 취약 X 증후군의 비침습적 검출을 용이하게 할 수 있다. 취약 X 증후군은 전형적으로 X 염색체의 FMR1(취약 X 정신 지체 1) 유전자 내의 CGG 트리뉴클레오타이드 반복부의 확장으로 인해 발생하는 유전 장애이다. 취약 X 증후군 및 반복부의 확장으로 인한 다른 장애는 본 출원의 다른 곳에 기재되어 있다. 태아에서 취약 X 증후군을 검출하는 방법은 본원에 개시된 반복의 임의의 다른 확장에도 적용될 수 있다.

FMR1 유전자에 CGG 반복부의 55 내지 200개의 카피를 갖는 것으로 정의되는 전돌연변이를 갖는 여성 대상체는 취약 X 증후군을 가진 아이를 가질 위험이 있다. 취약 X 증후군이 있는 태아를 임신할 우도는 FMR1 유전자에 존재하는 CGG 반복부의 수에 좌우된다. 산모에서 반복부의 수가 많을수록 태아에게 전달될 때 전돌연변이로부터 완전 돌연변이로 확장될 위험이 높아진다. 이전에 115±2 CGG 반복부의 취약한 X 전돌연변이 대립형질을 갖고 있는 것으로 확인되었고, 취약 X 증후군 진단을 받은 아들이 있는 여성으로부터 재태 연령 12주에 모 혈장 샘플을 수집하였다(발단자). 그런 다음 모 혈장을 단일 분자 실시간 시퀀싱에 적용하였다. 일례에서, 단일 분자 실시간 시퀀싱을 사용하여, 본 발명자들은 인간 참조 게놈에 정렬된 330만 개의 순환 공통 서열(CCS)를 얻었고, CCS당 중간 하위판독물 깊이는 75배였다(사분위수 범위: 14 내지 237배). 각각의 시퀀싱된 혈장 DNA에 대한 유전적 및 후성적 정보는 본 개시내용의 실시형태에 따라 결정될 수 있다. 염색체 X의 두 가지 모 일배체형을 얻기 위해서, 마이크로어레이 기술인 iScan System(Illumina)의 Infinium Omni2.5Exome-8 Beadchip을 사용하여, 모 버피 코트 및 발단자의 협측 스왑으로부터 추출된 두 DNA에 대해 X 염색체의 2,000개 SNP 유전자형을 분석하였다. 2개의 모 일배체형, 즉 Hap I 및 Hap II는 모 및 발단자 게놈의 유전자형 정보를 기반으로 추론할 수 있다.

도 33은 취약 X 증후군의 비침습적 검출을 위한 흐름도를 나타낸다. 모 버피 코트 DNA의 이형접합성 SNP 부위에 걸쳐, 발단자의 유전자형과 동일한 대립형질이 후속 세대에서 완전 돌연변이의 잠재적 전구체인 전돌연변이 대립형질(즉, Hap I)과 연관된 일배체형을 정의하는 데 사용되었다. 한편, 발단자의 유전자형과 상이한 대립형질은 상응하는 야생형 대립형질(Hap II)과 관련된 일배체형을 정의하는 데 사용되었다. 태아를 임신한 발단자의 어머니로부터 얻은 모 혈장 DNA는 단일 분자 실시간 시퀀싱을 거쳤다. 얻은 유전 정보가 조사 중인 게놈 유전자좌에 걸쳐 Hap I 또는 Hap II의 대립형질과 동일한지 여부에 따라 시퀀싱 판독물을 산모의 Hap I 및 Hap II에 할당하였다. 혈장 DNA 분자의 메틸화 패턴을 사용하여 본 개시내용의 실시형태에 따라서 특정 수의 CpG 부위를 함유하는 혈장 DNA 분자의 기원 조직(즉, 메틸화 패턴 분석에 기초하여 태반 기원으로 식별된 DNA 분자는 태아에서 기원한 것으로 결정될 것임)을 결정하였다.

시나리오 A에서, 태아(즉, 태반) DNA 분자가 모 Hap I에 할당된 혈장 DNA 분자에서 검출 가능하지만 모 Hap II에 할당된 혈장 DNA 분자에서 검출 가능하지 않은 경우, Hap I은 태어나지 않은 태아에게 전달될 것이라고 결정될 것이다. 태아는 취약 X 증후군의 영향을 받을 위험이 높은 것으로 결정될 것이다. 혈장 DNA 분자의 태반 기원은 아래에서 논의되는 바와 같이 분자의 메틸화 상태에 기초할 것이다.

시나리오 B에서, 태아 DNA 분자가 모 Hap II에 할당된 혈장 DNA 분자에서 검출 가능하지만 모 Hap I에 할당된 혈장 DNA 분자에서 검출 가능하지 않은 경우, Hap II는 태어나지 않은 태아에게 전달될 것이라고 결정될 것이다. 태아는 취약 X 증후군의 영향을 받지 않은 것으로 결정될 것이다.

실시형태에서, 태아 DNA 분자에 대한 "검출 가능한" 및 "검출 가능하지 않은"의 정의는 태아(즉, 태반) 기원인 것으로 확인된 혈장 DNA 분자의 백분율의 컷오프에 따라 달라질 수 있다. "검출 가능한"에 대한 컷오프는 1%, 2%, 3%, 4%, 5%, 10%, 15%, 20%, 30%, 40%, 50% 초과 등을 포함할 수 있지만 이들로 제한되지 않는다. "검출 가능하지 않은"에 대한 컷오프는 1%, 2%, 3%, 4%, 5%, 10%, 15%, 20%, 30%, 40%, 50% 등 미만을 포함할 수 있지만 이들로 제한되지 않는다. 일부 실시형태에서, Hap I 및 Hap II 사이의 태아 기원인 것으로 결정된 혈장 DNA 분자의 백분율의 차이는 비제한적으로 1%, 2%, 3%, 4%, 5%, 10%, 15%, 20%, 30%, 40%, 50% 등을 초과할 것이 요구될 수 있다. 일부 다른 실시형태에서, 일배체형 정보는 긴 판독물 시퀀싱 기술(예를 들어, PacBio 또는 나노기공 시퀀싱)(문헌[Edge et al. Nat Commun. 2019;10:4660]), 합성 긴 판독물(예를 들어, 10X Genomics으로부터의 플랫폼 사용)(문헌[Hui et al. Clin Chem. 2017;63:513-14]), 표적화 유전자좌 증폭(targeted locus amplification: TLA)-기반 페이징(문헌[Vermeulen et al. Am J Hum Genet. 2017; 101: 326-39]) 및 통계 페이징(예를 들어, Shape-IT)(문헌[Delaneau et al. Nat Method. 2011;9:179-81])에서 얻을 수 있다.

실시형태에서, 본 출원에 개시된 메틸화 상태 일치 접근법에 따라서, 적어도 200 bp이고, 적어도 5개의 CpG 부위(또는 긴 DNA 분자에 대한 임의의 다른 컷오프)를 함유하는 혈장 DNA 분자의 모계 및 태아 기원을 결정할 수 있다. 본 발명자들은 모 Hap II의 해당 대립형질에 상응하는 대립형질과 동일하지만 모 Hap I의 대립형질과 상이한 대립형질(위치: chrX:143782434, SNP 수탁 번호: rs6626483; 대립형질 유전자형: C)을 갖는 게놈 위치 chrX:143,782,245 내지 143,782,786(FMR1 유전자에서 3.2 Mb 떨어져 있음)에 위치한 하나의 혈장 DNA 분자를 식별하였다.

도 34는 태반 및 버피 코트 DNA의 메틸화 프로파일과 비교한 혈장 DNA의 메틸화 패턴을 나타낸다. 혈장 DNA 분자는 5개의 CpG 부위를 함유하였다. 메틸화 패턴은 "M-U-U-U-U"로 결정되었다. 단일 분자 실시간 시퀀싱에서 얻은 이 메틸화 패턴을 본 개시내용에 기재된 메틸화 상태 일치 접근법에 따라 바이설파이트 시퀀싱으로부터 얻은 태반 조직 및 버피 코트 DNA 샘플의 참조 메틸화 프로파일과 비교하였다. 태반[즉, S(placenta) ]으로부터 유래한 이 분자에 대한 점수는 2였는데, 이는 -3에서 버피 코트[즉, S(buffy coat) ]의 점수보다 컸다. 따라서, 이러한 혈장 DNA 분자(chrX:143,782,245 - 143,782,786)는 태아 기원으로 결정되었다. 그러나 본 발명자들은 모 Hap I의 대립형질을 보유하는 임의의 혈장 DNA 분자가 태아 기원임을 관찰하지 못했다. 따라서, 본 발명자들은 태아가 모 Hap II를 유전하였고 취약 X 증후군의 영향을 받지 않는다는 결론을 내렸다.

본 발명자들은 본원에 기재된 접근법의 성능이 다음 요인으로 인해 X-염색체 불활성화에 의해 크게 영향을 받지 않을 수 있다고 생각하였다:

1) X-불활성화는 인간에서 완전하지 않다. X-염색체 상의 유전자의 1/3이 X-불활성화로부터 다양한 탈출을 나타내었다(문헌[Cotton et al. Hum Mol Genet. 2015;25:1528-1539]). CpG 섬 외부의 CpG 부위(즉, 대부분의 CpG 부위)는 두 성별 모두에서 유사한 정도로 메틸화되었는데, 이는 X 염색체 내의 대부분의 CpG 부위에 대한 메틸화 상태가 X 불활성화에 의해 영향을 받지 않을 수 있음을 시사한다(문헌[Yasukochi et al. Proc Natl Acad Sci USA. 2010;107:3704-9]).

2) 본 발명자들은 태어나지 않은 태아와 관련하여 성별이 일치하는 태반 조직의 메틸화 프로파일을 사용하였다. 이 전략은 남자 태아를 임신한 여성의 혈장 DNA 메틸화 패턴을 사용하여 태아의 모계 유전을 검출하는 데 유용할 것인데, 그 이유는 X 불활성화의 영향을 받을 것이라고 예상되지 않은 남자 태아와 관련된 태반 조직이 특정 영역에 대한 X 불활성화와 다소 관련된 다른 모계 조직과 상이한 고유한 메틸화 패턴을 보유할 것이기 때문이다.

본 발명자들은 단일 분자 실시간 시퀀싱을 사용하여 모 버피 코트 샘플에서 추출한 DNA를 추가로 시퀀싱하였다. 본 발명자들은 230만 개의 CCS를 얻었고, CCS당 중간 하위판독물 깊이는 5배였다. 이 결과는 모 Hap I이 124개의 CGG 반복부를 갖는 전돌연변이 대립형질을 보유하고, 모 Hap II가 43개의 CGG 반복부를 갖는 야생형 대립형질을 보유함을 확인해 주었다. 게다가, 본 발명자들은 단일 분자 실시간 시퀀싱으로 태어나지 않은 태아의 융모막 융모 샘플링으로부터 추출된 DNA의 시퀀싱을 추가로 시퀀싱하였다. 본 발명자들은 110만 개의 CCS를 얻었고, CCS당 중간 하위판독물 깊이는 4배였다. 그 결과는 태어나지 않은 태아가 야생형 대립형질을 보유하였음을 확인해 주었다.

E. 인간 게놈에서 CpG 부위의 분포

더 긴 DNA 단편은 다중 CpG 부위를 갖는 단편의 확률이 더 커진다. 이러한 다중 CpG 부위는 메틸화 패턴 또는 다른 분석에 사용될 수 있다.

도 35는 인간 게놈에 걸친 500-bp 영역에서 CpG 부위의 분포를 나타낸다. 제1 열은 시퀀싱될 CpG 부위의 수를 나타낸다. 제2 열은 CpG 부위의 수와 함께 500-bp 영역의 수를 나타낸다. 제3 열은 특정 수의 CpG 부위를 갖는 영역으로 표시되는 모든 영역의 비율을 나타낸다. 예를 들어, 500-bp 영역의 86.14%는 적어도 1개의 CpG 부위를 보유할 것이다. 또한 500-bp 영역의 11.08%는 적어도 10개의 CpG 부위를 보유할 것이다.

도 36은 인간 게놈에 걸친 1-kb 영역에서 CpG 부위의 분포를 나타낸다. 제1 열은 시퀀싱될 CpG 부위의 수를 나타낸다. 제2 열은 CpG 부위의 수와 함께 1-kb 영역의 수를 나타낸다. 제3 열은 특정 수의 CpG 부위를 갖는 영역으로 표시되는 모든 영역의 비율을 나타낸다. 예를 들어, 500-bp 영역의 91.67%는 적어도 1개의 CpG 부위를 보유할 것이다. 또한, 500-bp 영역의 32.91%는 적어도 10개의 CpG 부위를 보유할 것이다.

도 37은 인간 게놈에 걸친 3-kb 영역에서 CpG 부위의 분포를 나타낸다. 제1 열은 시퀀싱될 CpG 부위의 수를 나타낸다. 제2 열은 CpG 부위의 수와 함께 3-kb 영역의 수를 나타낸다. 제3 열은 특정 수의 CpG 부위를 갖는 영역으로 표시되는 모든 영역의 비율을 나타낸다. 예를 들어, 3-kb 영역의 92.45%는 적어도 1개의 CpG 부위를 보유할 것이다. 또한 3-kb 영역의 87.09%는 적어도 10개의 CpG 부위를 보유할 것이다.

일부 실시형태에서, 태반-특이적 마커 식별 및 기원 조직 분석의 감도 및 특이도를 최대화하기 위해 상이한 수의 CpG 부위 및 상이한 크기 컷오프가 사용될 것이다. 일반적으로, CpG 부위는 SNP보다 더 자주 나타난다. 주어진 크기의 DNA 단편은 SNP보다 더 많은 CpG 부위를 가질 가능성이 있다. 상기에 제시된 표는 동일한 크기의 영역에서 CpG 부위보다 SNP가 더 적기 때문에, CpG 부위와 동일한 수의 SNP를 갖는 영역에 대한 비율이 더 낮을 수 있다. 결과적으로, CpG 부위를 사용하면 SNP만 사용하는 것보다 더 많은 단편을 사용할 수 있고 더 양호한 통계를 제공할 수 있다.

F. 기원 조직 분석의 예

실시형태에서, 모 혈장에서 기원 조직 분석을 T 세포, B 세포, 호중구, 간 및 태반을 비롯한 2개 이상의 기관/조직으로 확장할 수 있다. 본 발명자들은 단일 분자 실시간 시퀀싱을 사용하여 9개의 모 DNA 샘플을 시퀀싱하였다. 본 발명자들은 본 개시내용에 기재된 메틸화 상태 일치 접근법에 따라 혈장 DNA 메틸화 패턴을 사용하여 모 혈장 DNA에 대한 태반 기여도를 추론하였다. 이 메틸화 상태 일치 분석을 위해, 일 실시형태에서, 길이가 적어도 500 bp이고 모 혈장 DNA 샘플에 적어도 5개의 CpG 부위를 함유한 DNA 분자 각각의 메틸화 패턴을 바이설파이트 시퀀싱으로부터 얻은 참조 조직 메틸화 프로파일과 비교하였다. 호중구, T 세포, B 세포, 간 및 태반을 포함한 5개의 조직을 참조 조직으로 사용하였다. 혈장 DNA 분자는 그 혈장 DNA 분자에 대한 최대 메틸화 상태 일치 점수에 상응하는 조직에 할당될 것이다. 다른 조직에 비해 조직에 할당된 혈장 DNA 분자의 백분율은 그 샘플의 모 혈장 DNA에 대한 그 조직의 비례 기여도로 간주될 것이다. 실시형태에서, 모 혈장에서 호중구, T 세포 및 B 세포의 비례 기여도의 합은 조혈 세포의 비례 기여도에 대한 대용물을 제공하였다.

도 38은 메틸화 상태 일치 분석을 사용하여 모 혈장에서 상이한 조직으로부터의 DNA 분자의 비례 기여도를 나타낸다. 제1 열은 샘플 아이덴티피케이션을 나타낸다. 제2 열은 조혈 세포 기여도를 백분율로 나타낸다. 제3 열은 간 기여도를 백분율로 나타낸다. 제4 열은 태반 기여도를 백분율로 나타낸다. 도 38은 모 혈장 DNA의 주요 기여자가 조혈 세포(중간값: 55.9%)임을 나타내며, 이는 이전 보고와 일치한다(문헌[Sun et al. Proc Natl Acad Sci USA. 2015;112:E5503-12]; 문헌[Zheng et al. Clin Chem. 2012;58:549-58]).

도 39a 및 도 39b는 SNP 접근법에 의해 추론된 태반 기여도와 태아 DNA 분율 사이의 관계를 나타낸다. x축은 SNP 접근법에 의해 결정된 태아 분율을 나타낸다. y축은 메틸화 상태 일치 분석을 사용하여 모 혈장에서 결정된 태반 기여도를 백분율로 나타낸다. 도 39a는 메틸화 상태 일치 분석에 의해 결정된 태반 기여도와 SNP에 의해 추론된 태아 DNA 분율 사이의 양호한 상관관계를 나타낸다(피어슨 r = 0.95; P 값 < 0.0001). 본 발명자들은 단일 분자 실시간 시퀀싱으로 결정된 혈장 DNA 메틸화 밀도를 2차 프로그래밍에 따라 바이설파이트 시퀀싱에서 얻은 다양한 참조 조직 메틸화 프로파일과 비교하여 모 혈장 DNA의 조직 디콘볼루션 분석을 추가로 수행하였다(문헌[Sun et al. Proc Natl Acad Sci USA. 2015;112:E5503-12]). 도 39b는 메틸화 밀도 기반 접근법을 사용하여 태반 기여도(문헌[Sun et al. Proc Natl Acad Sci USA. 2015;112:E5503-12])와 태아 DNA 분율 사이의 상관관계가 메틸화 상태 일치 분석을 사용하는 것과 비교하여 감소되었음을 나타낸다(피어슨 r = 0.65, P 값 = 0.059).

이러한 데이터는 모 혈장 DNA 샘플에서 상이한 조직에 의해 기여된 DNA 분자의 비율을 추론하는 것이 가능함을 시사하였다. 또 다른 실시형태에서, 이 방법을 또한 사용하여 침습성 고형 조직 생검 후 얻어진 샘플 내의 상이한 세포 유형 또는 조직 또는 수술 후 얻은 고형 조직으로부터 DNA 분자를 측정할 수 있다. 일부 실시형태에서, 모 혈장 DNA에 대한 상이한 조직의 비례 기여도를 추론하기 위해 단일 DNA 분자 수준에 대한 메틸화 패턴의 사용은 게놈에 걸쳐 모든 시퀀싱된 혈장 DNA 분자로부터의 응집된 메틸화 밀도에 기초한 접근법보다 우수할 것이다.

G. 예시적인 방법

도 40은 태아를 임신한 여성으로부터 얻은 생물학적 샘플의 분석 방법(4000)을 나타낸다. 생물학적 샘플은 태아 및 여성으로부터의 복수의 세포유리 DNA 분자를 포함할 수 있다.

블록 4010에서, 복수의 세포유리 DNA 분자에 상응하는 서열 판독물을 제공받을 수 있다. 일부 실시형태에서, 방법(4000)은 세포유리 DNA 분자의 시퀀싱을 수행하는 것을 포함할 수 있다.

블록 4020에서, 복수의 세포유리 DNA 분자의 크기가 측정될 수 있다. 측정은 서열 판독물을 참조 게놈에 정렬하는 단계를 포함할 수 있다. 일부 실시형태에서, 측정은 전장 시퀀싱 및 전장 서열에서 뉴클레오타이드의 수를 계수하는 것을 포함할 수 있다. 일부 실시형태에서, 측정은 생물학적 샘플로부터의 복수의 세포유리 DNA 분자를 생물학적 샘플 내의 다른 세포유리 DNA 분자로부터 물리적으로 분리하는 단계를 포함할 수 있고, 다른 세포유리 DNA 분자는 컷오프 값보다 작은 크기를 갖는다. 물리적 분리는 비드 사용을 포함하여 본원에 기재된 임의의 기술을 포함할 수 있다.

블록 4030에서, 복수의 세포유리 DNA 분자로부터의 세포유리 DNA 분자의 세트는 컷오프 값 이상의 크기를 갖는 것으로 식별될 수 있다. 컷오프 값은 200 nt 이상일 수 있다. 컷오프 값은 600 nt, 700 nt, 800 nt, 900 nt, 1 knt, 1.1 knt, 1.2 knt, 1.3 knt, 1.4 knt, 1.5 knt, 1.6 knt, 1.7 knt, 1.8 knt, 1.9 knt 또는 2 knt를 포함하여 적어도 500 nt일 수 있다. 컷오프 값은 긴 세포유리 DNA 분자에 대해 본원에 기재된 임의의 컷오프 값일 수 있다. 크기는 분자의 길이보다는 CpG 부위의 수일 수 있다. 예를 들어, 컷오프 값은 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15개 또는 그 초과의 CpG 부위일 수 있다.

블록 4040에서, 세포유리 DNA 분자 세트의 세포유리 DNA 분자의 경우, 복수의 부위의 각각의 부위에서 메틸화 상태가 결정될 수 있다. 복수의 부위는 적어도 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15개 또는 그 초과의 CpG 부위를 포함할 수 있다. 복수의 부위 중 적어도 하나가 메틸화될 수 있다. 복수의 부위 중 2개의 부위는 적어도 160 nt, 170 nt, 180 nt, 190 nt, 200 nt, 250 nt, 또는 500 nt만큼 분리될 수 있다. 이 방법은 복수의 세포유리 DNA 분자를 시퀀싱하여 서열 판독물을 수득하는 단계 및 부위의 뉴클레오타이드 및 부위에 인접한 뉴클레오타이드에 상응하는 특성을 측정함으로써 부위의 메틸화 상태를 결정하는 단계를 포함할 수 있다. 예를 들어, 메틸화는 미국 출원 제16/995,607호에서와 같이 결정될 수 있다.

블록 4050에서, 메틸화 패턴이 결정될 수 있다. 메틸화 패턴은 복수의 부위 중 각각의 부위의 메틸화 상태를 나타낼 수 있다.

블록 4060에서, 메틸화 패턴은 하나 이상의 참조 패턴과 비교될 수 있다. 하나 이상의 참조 패턴 각각은 특정 조직 유형에 대해 결정될 수 있다. 일부 실시형태에서, 비교는 참조 패턴과 일치하는 부위의 수를 결정하는 것을 포함할 수 있다.

하나 이상의 참조 패턴 중의 참조 패턴은 참조 조직으로부터의 DNA 분자를 사용하여 복수의 참조 부위의 각각의 참조 부위에서 메틸화 밀도를 측정함으로써 결정될 수 있다. 복수의 참조 부위의 각각의 참조 부위에서의 메틸화 밀도를 하나 이상의 역치 메틸화 밀도와 비교할 수 있다. 복수의 참조 부위의 각각의 참조 부위를 메틸화 밀도와 하나 이상의 역치 메틸화 밀도의 비교에 기초하여 메틸화된 것, 메틸화되지 않은 것 또는 정보가 없는 것으로 식별할 수 있고, 복수의 부위는 메틸화된 것 또는 메틸화되지 않은 것으로 식별된 복수의 참조 부위이다. 정보가 없는 부위는 두 역치 메틸화 밀도 사이에 메틸화 밀도가 있는 부위를 포함할 수 있다. 예를 들어, 정보가 없는 부위의 메틸화 지수는 30 내지 70 또는 본원에 기재된 바와 같은 임의의 다른 범위일 수 있다.

단계 4070에서, 세포유리 DNA 분자의 기원 조직은 메틸화 패턴을 사용하여 결정될 수 있다. 기원 조직은 태반일 수 있다. 기원 조직은 태아 또는 모체일 수 있다. 이 방법은 도 22의 설명과 유사하게, 메틸화 패턴이 참조 패턴과 일치할 때 기원 조직을 참조 조직인 것으로 결정하는 단계를 포함할 수 있다. 일치는 정확히 일치하는 것을 지칭할 수 있다. 일부 실시형태에서, 기원 조직을 참조 조직인 것으로 결정하는 단계는 메틸화 패턴이 참조 패턴의 부위의 특정 백분율과 일치하는 경우일 수 있다. 예를 들어, 메틸화 패턴은 참조 패턴의 부위의 적어도 60%, 70%, 80%, 85%, 90%, 95%, 97% 또는 그 초과만큼 일치할 수 있다.

이 방법은 메틸화 패턴을 복수의 참조 조직의 제1 참조 조직으로부터의 제1 참조 메틸화 패턴과 비교함으로써 유사도 점수를 결정함으로써 기원 조직을 결정하는 단계를 포함할 수 있다. 유사도 점수는 본원에 기재된 메틸화 상태 일치 프로세스 또는 베타 분포 확률 모델로 계산될 수 있다. 유사도 점수는 역치 값과 비교할 수 있다. 기원 조직은 유사도 점수가 역치 값을 초과할 때 제1 참조 조직인 것으로 결정될 수 있다. 유사도 점수는 제1 유사도 점수일 수 있다. 이 방법은 메틸화 패턴을 복수의 참조 조직 중 제2 참조 조직으로부터의 제2 참조 메틸화 패턴과 비교함으로써 제2 유사도 점수를 결정함으로써 역치 값을 계산하는 단계를 추가로 포함할 수 있다. 제1 참조 조직과 제2 참조 조직은 상이한 조직일 수 있다. 역치 값은 제2 유사도 점수일 수 있다. 제1 참조 조직은 다른 모든 참조 조직에 비해 가장 높은 유사도 점수를 가질 수 있다.

제1 참조 메틸화 패턴은 제1 참조 조직에 대해 적어도 제1 메틸화 확률을 갖는 부위의 제1 하위세트를 포함할 수 있다. 예를 들어, 부위의 제1 하위세트는 메틸화되거나 일반적으로 메틸화된 것으로 간주되는 부위일 수 있다. 제1 참조 메틸화 패턴은 제1 참조 조직에 대해 최대 제2 메틸화 확률을 갖는 부위의 제2 하위세트를 포함할 수 있다. 예를 들어, 부위의 제2 하위세트는 메틸화되지 않거나 일반적으로 메틸화되지 않은 것으로 간주되는 부위일 수 있다. 유사도 점수를 결정하는 것은 복수의 부위의 부위가 메틸화되고 복수의 부위의 부위가 부위의 제1 하위세트에 존재하는 경우 유사도 점수를 증가시키는 단계 및 복수의 부위의 부위가 메틸화되고 복수의 부위의 부위가 부위의 제2 하위세트에 존재하는 경우 유사도 점수를 감소시키는 단계를 포함할 수 있다. 유사도 점수는 본원에 기술된 메틸화 상태 매칭 접근법과 유사하게 결정될 수 있다.

제1 참조 메틸화 패턴은 복수의 부위를 포함하고, 복수의 부위의 각각의 부위는 제1 참조 조직에 대해 메틸화될 확률 및 메틸화되지 않을 확률을 특징으로 한다. 유사도 점수는 복수의 부위 중 각각의 부위에 대해 세포유리 DNA 분자에서 부위의 메틸화 상태에 상응하는 참조 조직의 확률을 결정함으로써 결정될 수 있다. 유사도 점수는 복수의 확률의 곱을 계산하여 결정될 수 있다. 몫이 유사도 점수일 수 있다. 확률은 본원에 기재된 접근법과 유사한 베타 분포에 의해 결정될 수 있다.

방법(4000)은 세포유리 DNA 분자 세트의 각각의 세포유리 DNA 분자에 대한 기원 조직을 결정하는 단계를 더 포함할 수 있다. 이러한 결정은 복수의 각각의 부위의 각각의 부위에서 메틸화 상태를 결정하는 단계를 포함할 수 있고, 복수의 각각의 부위는 세포유리 DNA 분자에 상응한다. 기원 조직의 결정은 메틸화 패턴을 결정하는 것을 추가로 포함할 수 있다. 추가로, 기원 조직의 결정은 또한 메틸화 패턴을 하나 이상의 참조 패턴 중 적어도 하나의 참조 패턴과 비교하는 것을 포함할 수 있다. 일부 실시형태에서, 메틸화 패턴의 비교는 도 22 및 첨부된 설명과 유사할 수 있다. 도 22에서, 태반, 간, 혈구 및 결장은 도시된 참조 패턴을 갖는 참조 조직의 예이다. 도 38은 참조 조직의 다른 예로서 조혈 세포를 나타낸다.

일부 실시형태에서, 각각의 기원 조직에 상응하는 세포유리 DNA 분자의 양이 결정될 수 있다. 각각의 기원 조직은 복수의 참조 조직의 각각의 참조 조직을 포함할 수 있다. 기원 조직의 분율 기여도는 각각의 기원 조직에 상응하는 세포유리 DNA 분자의 양을 사용하여 결정될 수 있다. 예를 들어, 기원 조직은 태반일 수 있다. 다른 기원 조직은 조혈 세포와 간을 포함할 수 있다. 예를 들어, 태반의 분율 기여도는 모든 기원 조직에 상응하는 세포유리 DNA 분자의 총량으로 나눈 세포유리 DNA 분자의 양으로부터 결정될 수 있다. 일부 실시형태에서, 세포유리 DNA 분자의 양을 총 세포유리 DNA 분자로 나눈 비율은 보정 데이터 포인트의 함수 또는 세트를 통한 분율 기여도와 관련될 수 있다. 보정 데이터 포인트의 함수 및 세트는 둘 다 기원 조직의 분율 기여도가 알려진 복수의 보정 샘플로부터 결정될 수 있다. 각각의 보정 데이터 포인트는 부분의 교정 값에 상응하는 분율 기여도를 명시할 수 있다. 함수는 보정 데이터 포인트의 선형 또는 비선형 맞춤을 나타낼 수 있으며, 기원 조직의 비율 또는 기원 조직에 관련된 다른 매개변수에 대한 분율 기여도와 관련될 수 있다. 분율 기여도를 결정하는 실시형태는 도 39a 내지 도 39b에서 기재된 것과 유사할 수 있다.

기계 학습 모델을 사용하여 기원 조직을 결정할 수 있다. 모델은 복수의 훈련 메틸화 패턴을 제공받는 단계에 의해서 훈련될 수 있는데, 각각의 훈련 메틸화 패턴은 복수의 부위 중 하나 이상의 부위에서 메틸화 상태를 가지며, 각각의 훈련 메틸화 패턴은 알려진 조직의 DNA 분자로부터 결정된다. 알려진 조직의 각각의 분자는 세포 DNA일 수 있다. 훈련은 복수의 훈련 샘플을 저장하는 단계를 포함할 수 있는데, 각각의 훈련 샘플은 복수의 훈련 메틸화 패턴 중 하나 및 훈련 메틸화 패턴에 상응하는 알려진 조직을 나타내는 표지를 포함한다. 복수의 훈련 샘플을 사용하여, 복수의 훈련 메틸화 패턴이 모델에 입력될 때 상응하는 표지와 일치하거나 일치하지 않는 모델의 출력에 기초하여 모델의 매개변수를 최적화하는 단계를 포함할 수 있다. 매개변수는 복수의 부위 중 하나의 부위가 복수의 부위 중 또 다른 부위와 동일한 메틸화 상태를 갖는지 여부를 나타내는 제1 매개변수를 포함할 수 있다. 예를 들어, 모델은 도 24의 쌍별 비교와 유사할 수 있다. 매개변수는 복수의 부위의 부위 사이의 거리를 나타내는 제2 매개변수를 포함할 수 있다. 일부 실시형태에서, 기계 학습 모델은 참조 게놈에 대한 메틸화 부위의 정렬을 필요로 하지 않을 수 있다. 모델의 출력은 입력 메틸화 패턴에 상응하는 조직을 명시할 수 있다.

기계 학습 모델은 CNN(convolution neural network) 또는 본원에 기재된 임의의 모델일 수 있다. 모델은 선형 회귀, 로지스틱 회귀, 심층 순환 신경망(예를 들어, 긴 단기간 메모리, LSTM), 베이지 분류, 은폐 마르코프 모델(HMM), 선형 구별 분석(LDA), k-평균 클러스터링, 노이즈를 갖는 분야의 밀도 기반 공간 클러스터링(DBSCAN), 랜덤 포레스트 알고리즘 및 서포트 벡터 머신(SVM)을 포함할 수 있지만, 이들로 제한되지 않는다.

친자관계는 방법(4000)에 의해 결정될 수 있다. 기원 조직은 태아일 수 있다. 방법은 서열 판독물의 서열 판독물을 참조 게놈의 제1 영역에 정렬하는 단계로서, 제1 영역은 대립형질에 상응하는 복수의 부위를 포함하고, 복수의 부위는 역치 수의 부위를 포함하는, 단계, 복수의 부위의 각각의 부위에 존재하는 각각의 대립형질을 사용하여 제1 일배체형을 결정하는 단계, 제1 일배체형을 남성 대상체에 해당하는 제2 일배체형과 비교하는 단계, 및 비교를 이용하여 남성 대상체가 태아의 아버지일 우도의 분류를 결정하는 단계를 추가로 포함할 수 있다. 남성 대상체는 일배체형이 일치하는 경우 아버지일 가능성이 있는 것으로 간주될 수 있고 일배체형이 일치하지 않는 경우 아버지일 가능성이 없는 것으로 간주될 수 있다. 일부 실시형태에서, 제1 일배체형을 남성 대상체의 두 일배체형과 비교할 수 있다.

실시형태에서, 기원 조직이 태아일 때 서열 판독물들의 서열 판독을 참조 게놈의 제1 영역에 정렬함으로써 친자관계를 시험할 수 있다. 제1 영역은 대립형질에 상응하는 제1 복수의 부위를 포함할 수 있다. 복수의 부위는 역치 수의 부위를 포함할 수 있다. 부위의 역치 수는 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15개 또는 그 초과의 부위일 수 있다. 복수의 부위의 각각의 부위에서의 대립형질은 남성 대상체의 게놈 내의 상응하는 부위에서의 대립형질과 비교될 수 있다. 남성 대상체자가 태아의 아버지일 우도의 분류는 비교를 통해 결정될 수 있다. 남성 대상체는 대립형질의 특정 수 또는 백분율이 일치하는 경우 아버지일 가능성이 있는 것으로 간주될 수 있고 그 수 또는 백분율 일치가 적은 경우 아버지일 가능성이 없는 것으로 간주될 수 있다. 컷오프 백분율은 100%, 90%, 80% 또는 70%일 수 있다.

일부 실시형태에서, 일배체형이 결정될 수 있다. 방법은 세포유리 DNA 분자 세트의 각각의 세포유리 DNA 분자의 경우 세포유리 DNA 분자에 상응하는 서열 판독물을 참조 게놈에 정렬하는 단계를 포함할 수 있다. 서열 판독물은 여성에 존재하는 일배체형에 상응하는 것으로 식별될 수 있다. 여성에 존재하는 일배체형은 여성의 유전자형을 통해 알 수 있다. 일부 실시형태에서, 여성의 일배체형은 여성의 생물학적 샘플에서 일배체형의 DNA 단편의 농도를 분석함으로써 알 수 있다. 기원 조직은 메틸화 패턴을 사용하여 태아로 결정될 수 있다. 일배체형은 모계 유전된 태아 일배체형으로 결정될 수 있다.

일배체형의 유전은 각인된 유전자좌와 관련된 것과 같은 공지된 메틸화 프로파일을 사용하기보다는 참조 조직의 메틸화를 사용하여 결정될 수 있다. 참조 패턴에 대한 메틸화 패턴의 일치 또는 유사도 점수는 유전된 부모를 기반으로 주어진 대립형질 또는 부위가 메틸화되었는지 여부에 대한 지식을 배제할 수 있다.

일배체형은 질환을-유발하는 유전자 돌연변이 또는 변이를 보유하는 것으로 식별될 수 있다. 질환-유발 유전자 돌연변이를 보유하는 것으로서 일배체형을 식별하는 것은 제1 서열 판독물에서 유전자 돌연변이 또는 변이를 식별하는 것을 포함할 수 있다. 유전적 변이는 단일 뉴클레오타이드 차이, 결실 또는 삽입을 포함할 수 있다. 제1 서열 판독물의 제1 거리 내의 제1 게놈 위치에 상응하는 제2 서열 판독물에서 제1 메틸화 수준을 측정할 수 있다. 제1 서열 판독물의 제2 거리 내의 제2 게놈 위치에 상응하는 제3 서열 판독물에서 제2 메틸화 수준을 또한 측정할 수 있다. 제1 거리는 100 nt, 200 nt, 300 nt, 400 nt, 500 nt, 600 nt, 700 nt, 800 nt, 900 nt, 1 knt, 2 knt, 5 knt 또는 10 knt일 수 있다. 제2 서열 판독물 및 제3 서열 판독물은 제1 서열 판독물과 동일한 염색체 아암 상에 존재할 수 있다. 제1 메틸화 수준 및 제2 메틸화 수준은 유전자 돌연변이 또는 변이와 관련될 수 있다. 제1 메틸화 수준 및 제2 메틸화 수준은 유전자 돌연변이 또는 변이와 관련된 하나 또는 두 개의 역치 수준보다 클 수 있다. 역치 수준은 유전자 돌연변이 또는 변이가 있거나 없는 것으로 알려진 대상체를 사용하여 결정될 수 있다. 이 방법은 태아가 유전자 돌연변이 또는 변이로 인한 질환을 가질 가능성이 있는 것으로 분류하는 단계를 더 포함할 수 있다.

태아-특이적 메틸화 패턴이 결정될 수 있다. 방법은 세포유리 DNA 분자 세트의 각각의 세포유리 DNA 분자의 경우 세포유리 DNA 분자에 상응하는 서열 판독물을 참조 게놈에 정렬하는 단계를 포함할 수 있다. 방법은 서열을 영역에 상응하는 것으로서 식별하는 단계를 포함할 수 있다. 이 영역은 태아 조직으로부터 복수의 태아 DNA 분자에 상응하는 복수의 태아 서열 판독물을 제공받는 단계에 의해서 결정될 수 있다. 방법은 복수의 모 DNA 분자에 상응하는 복수의 모 서열 판독물을 제공받는 단계를 포함할 수 있다. 방법은 복수의 태아 서열 판독물의 각각의 태아 서열 판독물에 대한 영역 내의 복수의 메틸화 부위의 각각의 메틸화 부위에서 태아 메틸화 상태를 결정하는 단계를 포함할 수 있다. 방법은 복수의 모 서열 판독물의 각각의 모 서열 판독물에 대한 복수의 메틸화 부위의 각각의 메틸화 부위에서 모 메틸화 상태를 결정하는 단계를 포함할 수 있다.

태아-특이적 메틸화 패턴을 결정하는 방법은 태아 메틸화 상태가 모 메틸화 상태와 다른 부위의 양을 특징짓는 매개변수의 값을 결정하는 단계를 포함할 수 있다. 방법은 매개변수의 값을 역치 값과 비교하는 단계를 포함할 수 있다. 매개변수는 태아 DNA 분자와 모 DNA 분자 사이에 다른 부위의 비율일 수 있다. 상기 비율은 여기에 설명된 불일치 점수일 수 있다. 역치 값은 불일치 점수의 최소 수준을 나타낼 수 있으며, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 또는 그 초과일 수 있다. 일부 실시형태에서, 역치 값은 모 DNA 또는 태아 DNA 분자에 대한 평균 불일치 점수를 나타낼 수 있다. 방법은 매개변수의 값이 역치 값을 초과하는지를 결정하는 단계에 의해서 결정하는 단계를 포함할 수 있다. 일부 실시형태에서, 모 DNA 또는 태아 DNA 분자의 특정 백분율은 매개변수의 값이 역치 값을 초과하는 것이 요구될 수 있다. 예를 들어, 백분율은 50%, 60%, 70%, 80%, 90% 또는 그 초과일 수 있다. 일부 실시형태에서, 영역에 상응하는 태아 DNA 분자의 특정 백분율은 태아-특이적 메틸화 패턴을 갖도록 요구될 수 있다. 예를 들어, 백분율은 40%, 50%, 60%, 70%, 80% 또는 그 초과일 수 있다. 이 방법은 도 25에 기재된 방법과 유사할 수 있다.

이 방법은 기원 조직으로부터의 세포유리 DNA 분자에 대한 생물학적 샘플을 농축하는 것을 포함할 수 있다. 생물학적 샘플을 농축하는 것은 세포유리 DNA 분자 세트를 선택하는 단계 및 증폭하는 단계를 포함할 수 있다. 농축은 본원에 기재된 바와 같이 크기-기반 선택을 포함할 수 있다. 일부 실시형태에서, 농축은 메틸화 패턴-기반 선택을 포함할 수 있다. 예를 들어, 메틸-CpG 결합 도메인(MBD) 기반 캡처 및 시퀀싱이 사용될 수 있다. 세포유리 DNA는 메틸화된 시토신에 결합할 수 있는 태깅된 MBD 단백질과 함께 인큐베이션될 수 있다. 단백질-DNA 복합체는 항체-접합 자기 비드로 침전될 수 있다. 더 많은 메틸화된 CpG 부위를 갖는 DNA 분자가 다운스트림 분석을 위해 우선적으로 농축될 수 있다.

III. 재태 연령을 갖는 긴 세포유리 DNA 단편의 변이

긴 세포유리 DNA 단편의 양은 재태 연령에 따라 다를 수 있다. 긴 세포유리 DNA 단편을 사용하여 재태 연령을 결정할 수 있다. 또한, 긴 세포유리 DNA 단편은 더 짧은 세포유리 DNA 단편에 비해 특정 단편 모티프에서 더 풍부할 수 있으며, 특정 단부 모티프의 상대적인 양은 재태 연령에 따라 다를 수 있다. 단부 모티프의 양을 또한 사용하여 재태 연령을 결정할 수 있다. 긴 세포유리 DNA 단편을 사용하여 결정된 재태 연령 및 다른 임상 기술을 통해 결정된 재태 연령의 편차는 임신-연관 장애를 나타낼 수 있다. 일부 실시형태에서, 긴 세포유리 DNA 단편을 사용하여 반드시 재태 연령을 결정하지 않고도 임신-연관 장애의 가능성을 결정할 수 있다.

A. 태아 DNA 및 모 DNA에 대한 크기 분석

제1 삼분기(재태 연령: 13주)의 2명의 임산부, 제2 삼분기(재태 연령: 21 내지 22주)의 2명, 제3 삼분기의 5명(재태 연령: 38주)의 혈장 DNA를 단일 분자 실시간(SMRT) 시퀀싱(PacBio)을 사용하여 시퀀싱하였다. 각각의 사례에 대해 중간값 1억 7,600만(범위: 4,900만 내지 6억 8,500만)의 하위판독물을 얻었으며, 그 중 1억 2,800만(범위: 3,500만 내지 5억 700만)의 하위판독물을 인간 참조 게놈(hg19)에 정렬할 수 있다. SMRT 웰의 각각의 분자를 평균 107번 시퀀싱하였다. 적어도 3개의 하위판독물이 있는 순환 공통 시퀀싱(CCS) 판독물로 정의된 965,308(범위: 251,686 내지 2,871,525) 고품질 CCS 판독물의 중간값을 다운스트림 분석에 사용할 수 있다.

임신의 각각의 삼분기에서 얻은 샘플로부터의 모든 시퀀싱된 분자를 크기 분석을 위해 함께 풀링하였다. 제1, 제2, 및 제3 삼분기 모 혈장 샘플 각각에 대해 총 194만 개, 509만 개 및 445만 개의 세포유리 DNA 분자가 존재하였다.

도 41a 내지 도 41b는 0 내지 5 kb의 크기 범위 내의 제1 삼분기, 제2 삼분기 및 제3 삼분기 모 혈장 샘플로부터의 세포유리 DNA 분자의 크기 분포를 나타낸다. x축은 크기를 나타낸다. y-축은 빈도를 나타낸다. 크기 분포는 도 41a의 경우 y축에 대한 선형 배율에 대해서 0 내지 5 kb 범위로 플로팅되고, 도 41b의 경우 y축에 대한 로그 배율에 대해서 0에서 5 kb 범위로 플로팅된다. 3개의 임신 삼분기 모두로부터의 혈장 DNA는 도 41a에 도시된 바와 같이 166 bp에서 예상되는 주요 피크 및 도 41b에 도시된 바와 같이 1 kb 내지 2 kb 범위 내의 분자로 확장되는 주기적인 패턴으로 발생하는 일련의 주요 피크를 나타내었다.

도 42는 상이한 임신 삼분기 동안 긴 혈장 DNA 분자의 비율을 나타내는 표이다. 제1 열은 혈장 샘플과 연관된 재태 연령을 나타낸다. 제2 열은 500 bp보다 긴 DNA 분자의 비율을 나타낸다. 제3 열은 1 kb보다 긴 DNA 분자의 비율을 나타낸다. 제1 삼분기와 제2 삼분기에 비해, 제3 삼분기는 500 bp 이상인 혈장 DNA 분자의 빈도가 증가하였다. 500 bp 이상의 긴 혈장 DNA 분자의 비율은 제1 삼분기, 제2 삼분기 및 제3 삼분기에 각각 15.8%, 16.1% 및 32.3%였다. 1 kp 초과의 긴 혈장 DNA 분자의 비율은 제1 삼분기, 제2 삼분기 및 제3 삼분기에 각각 11.3%, 10.6% 및 21.4%였다. 제1 삼분기 및 제2 삼분기 모 혈장은 긴 세포유리 DNA 분자의 비율이 유사한 반면, 제3 삼분기 모 혈장은 긴 DNA 분자의 비율이 대략 2배였다.

본 개시내용을 위해 분석된 모든 모 혈장 DNA 샘플에 대해, 쌍을 이룬 모 버피 코트 및 태아 샘플으로부터 추출된 DNA를 어레이 혼성화에 기초한 유전형분석 방법인 iScan 시스템(Illumina)에서 Infinium Omni2.5Exome-8 Beadchip으로 유전형분석하였다. 태아 샘플은 사례가 각각 제1, 제2 또는 제3 삼분기로부터 유래하였는지에 따라서 융모막 융모 샘플링, 양수천자 또는 태반 샘플링을 통해 얻었다. 산모가 동형접합성이고 태아가 이형접합성인 203,647개의 정보가 있는 단일 염기 다형성(SNP)의 중간값을 각각의 사례에 대해 식별하였다. 본 발명자들은 각각의 삼분기의 모든 경우에 대해 시퀀싱된 DNA 분자가 함께 풀링된 경우, 각각 제1, 제2 및 제3 삼분기에 대한 태아-특이적 대립형질을 포함하는 총 1,362개, 2,984개, 및 6,082개의 DNA 분자를 식별하였다. 한편, 산모가 이형접합성이고 태아가 동형접합성인 정보가 있는 SNP의 중간값은 210,820인 것으로 각각의 사례에 대해 식별되었다. 본 발명자들은 각각 제1, 제2 및 제3 삼분기 동안 모-특이적 대립형질을 포함하는 총 30,574개, 65,258개, 및 78,346개의 DNA 분자를 식별하였다. 모든 모 혈장 샘플 중 600 bp 이하의 DNA 분자의 시퀀싱 데이터로부터 결정된 중간 태아 DNA 분율은 15.6%(범위, 7.6 내지 26.7%)였다.

도 43a 및 도 43b는 제1 삼분기, 제2 삼분기 및 제3 삼분기 모 혈장의 태아-특이적 대립형질을 포함하는 DNA 분자의 크기 분포를 나타낸다. x축은 크기를 나타낸다. y-축은 빈도를 나타낸다. 크기 분포는 도 43a의 경우 y축에 대한 선형 배율에 대해서 0 내지 3 kb 범위로 플로팅되고, 도 43b의 경우 y축에 대한 로그 배율에 대해서 0에서 3 kb 범위로 플로팅된다.

도 44a 및 도 44b는 제1 삼분기, 제2 삼분기 및 제3 삼분기 모 혈장의 모-특이적 대립형질을 포함하는 DNA 분자의 크기 분포를 나타낸다. x축은 크기를 나타낸다. y-축은 빈도를 나타낸다. 크기 분포는 도 44a의 경우 y축에 대한 선형 배율에 대해서 0 내지 3 kb 범위로 플로팅되고, 도 44b의 경우 y축에 대한 로그 배율에 대해서 0에서 3 kb 범위로 플로팅된다.

도 43a 내지 도 44b에 도시된 바와 같이, 3개의 삼분기 모두로부터의 태아- 및 모-특이적 대립형질을 포함하는 혈장 DNA 분자는 긴 꼬리 분포를 나타내는데, 이는 3개의 삼분기 모두에서 태아 기원 및 모체 기원에서 유래한 긴 DNA 분자의 존재를 시사한다.

도 45는 상이한 임신 삼분기 동안 긴 태아 혈장 DNA 분자 및 모 혈장 DNA 분자의 비율을 나타내는 표이다. 제1 열은 혈장 샘플과 연관된 재태 연령을 나타낸다. 제2 열은 500 bp보다 긴 태아 DNA 분자의 비율을 나타낸다. 제3 열은 500 bp보다 긴 모 DNA 분자의 비율을 나타낸다. 제4 열은 1 kp보다 긴 태아 DNA 분자의 비율을 나타낸다. 제5 열은 1 kp보다 긴 모 DNA 분자의 비율을 나타낸다. 모 혈장 중의 DNA 분자 풀 중에서 태아-특이적 대립형질(태반 기원)을 포함하는 것은 모-특이적 대립형질을 포함하는 것에 비해 긴 DNA 분자의 비율이 더 적다. 크기가 500 bp 초과인 태아-특이적 대립형질을 포함하는 긴 혈장 DNA 분자의 비율은 각각 제1 삼분기, 제2 삼분기 및 제3 삼분기에 대해 19.8%, 23.2% 및 31.7%였다. 크기가 1 kb 초과인 태아-특이적 대립형질을 포함하는 긴 혈장 DNA 분자의 비율은 각각 제1 삼분기, 제2 삼분기 및 제3 삼분기에 대해 15.2%, 16.5% 및 19.9%였다.

제3 삼분기에 비해 제1 삼분기 및 제2 삼분기 모 혈장에 존재하는 긴 혈장 DNA 분자의 비율이 더 적고 태아 DNA 분자가 3개의 삼분기 모두에서 더 적은 긴 DNA 분자를 함유한다는 사실에도 불구하고, 이전에 기재된 방법 및 본 개시내용에 기재된 방법은 짧은 판독물 시퀀싱 기술로는 이전에 불가능했던 긴 혈장 DNA 분자의 상당 부분을 분석할 수 있었다. 또한, 전기영동, 크로마토그래피 및 비드 기반 방법을 포함하지만 이들로 제한되지 않는 상이한 크기 선택 전략을 사용하여 혈장 샘플에서 긴 DNA 단편을 농축할 수 있다.

도 46a, 도 46b 및 도 46c는 상이한 삼분기에 걸친 특정 크기 범위의 태아-특이적 혈장 DNA 단편의 비율의 플롯을 나타낸다. 평가된 임신 사례의 재태 연령은 데이팅(dating) 초음파에 의해서 확인되었다. 도 46a는 150 bp 이하의 DNA 단편에 대한 결과를 나타낸다. 도 46b는 150 내지 600 bp의 DNA 단편에 대한 결과를 나타낸다. 도 46c는 600 bp 이상의 DNA 단편에 대한 결과를 나타낸다. 그래프는 y축에 태아-특이적 단편의 비율을, x축에 재태 연령을 나타낸다. 그래프에 나타난 바와 같이, 150 bp 미만(도 46a) 및 600 bp 초과(도 46c)의 태아-특이적 단편의 비율은 모두 150 내지 600 bp 범위의 태아-특이적 단편(도 46b)의 비율과 비교하여 제3 삼분기 샘플을 제1 삼분기 및 제2 삼분기 샘플과 구별하는 특정 판별력을 달성할 것이다. 600 bp보다 긴 태아-특이적 단편의 비율이 가장 좋은 판별력을 제공할 수 있다. 이러한 결론은 150 bp 미만의 태아-특이적 단편의 비율을 사용할 때 제3 삼분기 군과, 제1 삼분기와 제2 삼분기를 합친 군 사이의 절대 최소 거리는 0.38인 반면, 600 bp보다 큰 태아-특이적 단편의 비율을 사용할 때 상대값은 3.76이라는 사실에 의해 입증되었다. 이러한 결과는 병태생리학적 상태를 반영하기 위해 긴 DNA 분자를 사용하는 것이 짧은 DNA 분자를 사용하는 것보다 우수하다는 것을 시사하였다.

B. 혈장 DNA 단부 분석

크기 외에도, 본 발명자들은 각각의 시퀀싱된 DNA 분자에 대해 Watson 및 Crick 가닥 모두의 5' 단부에서 제1 뉴클레오타이드를 별도로 결정하였다. 이 분석은 A-단부, C-단부, G-단부 및 T-단부의 4가지 유형의 단부로 구성되었다. 각각의 삼분기로부터 얻은 모 혈장 샘플에서 특정 단부를 갖는 혈장 DNA 분자의 백분율을 계산하였다. 각각의 단편 크기에서 A-단부, C-단부, G-단부 및 T-단부의 백분율을 추가로 분석하였다.

도 47a, 도 47b 및 도 47c는 0 내지 3 kb의 단편 크기 범위에 걸쳐 제1 삼분기, 제2 삼분기 및 제3 삼분기 모 혈장의 세포유리 DNA 분자의 5' 단부에서 염기 함량 비율의 그래프를 나타낸다. 도 47a는 제1 삼분기 모 혈장을 나타낸다. 도 47b는 제2 삼분기 모 혈장을 나타낸다. 도 47c는 제3 삼분기 모 혈장을 나타낸다. 백분율로의 염기 함량을 y축에 나타낸다. 염기 쌍의 단편의 크기를 x축에 나타낸다. 그래프에서 볼 수 있는 바와 같이, C-단부는 많은 크기 범위(대부분 1 kb 미만)에 걸쳐 과도하게 표시되었으며, 제1 삼분기, 제2 삼분기 및 제3 삼분기 샘플에 대해서 다양한 크기 범위에 따라 달라졌다. 제3 삼분기 샘플의 혈장 DNA 단부 패턴은 제1 삼분기 샘플 및 제2 삼분기 샘플과 상이한 것으로 보였다. 예를 들어, T-단부 및 G-단부 곡선은 105 내지 172 bp 범위의 크기에서 함께 혼합되었지만 제1 삼분기 샘플 및 제2 삼분기 샘플에서는 나뉘었다. 더 긴 단편(예를 들어, 대략 1kb 초과)의 경우 C-단부 단편이 가장 풍부한 단편은 아니다. G-단부 단편은 대략 1 kb에서 C-단부 단편을 추월하고, A-단부 단편은 대략 2 kb에서 G-단부 단편보다 더 풍부해진다.

도 48은 제1 삼분기, 제2 삼분기 및 제3 삼분기 모 혈장으로부터의 짧은 세포유리 DNA 분자 및 긴 세포유리 DNA 분자 사이의 단부 뉴클레오타이드 염기 비율의 표이다. 제1 열은 분자 단부에 있는 염기를 나타낸다. 제2 열은 예상 비율 점 및 종을 나타낸다. 제3 열은 제1 삼분기 모 혈장에 대한 500 bp 이하의 단편 중 단부 종의 비율을 나타낸다. 제4 열은 제1 삼분기 모 혈장에 대한 500 bp 초과의 단편 중 단부 종의 비율을 나타낸다. 제5 열 및 제6 열은 제2 삼분기 모 혈장을 제외하고 그리고 제1 삼 분기 모 혈장을 대신해서 각각 제3 열 및 제4 열과 유사하다. 제7 열 및 제8 열은 제3 삼분기 모 혈장을 제외하고 그리고 제1 삼 분기 모 혈장을 대신해서 각각 제3 열 및 제4 열과 유사하다.

세포유리 DNA 단편화가 완전히 무작위인 경우, 단부 뉴클레오타이드 염기 비율은 인간 게놈의 조성을 반영해야 하며, 이는 도 48의 제2 열에 제시된 바와 같이 29.5%의 A, 29.5%의 T, 20.5%의 C 및 20.5%의 G이다. 무작위 단편화와 대조적으로, 500 bp 이하의 짧은 세포유리 DNA 분자의 5' 단부는 C-단부의 실질적인 과잉 표현(제1 삼분기, 제2 삼분기 및 제3 삼분기 모 혈장에 대해 각각 30.4%, 30.4% 및 31.3%), G-단부의 약간의 과잉 표현(제1 삼분기, 제2 삼분기 및 제3 삼분기에 대해 각각 27.4%, 26.9% 및 25.3%) 및 A-단부의 과소 표현(제1 삼분기, 제2 삼분기 및 제3 삼분기에 대해 각각 19.8%, 19.4% 및 19.3%) 및 T-단부(제1 삼분기, 제2 삼분기 및 제3 삼분기에 대해 각각 22.4%, 23.3% 및 24.1%)을 나타내었다.

그러나, 짧은 세포유리 DNA 분자와 비교할 때, 500 bp 초과의 긴 세포유리 DNA 분자는 A-단부의 비율의 상당한 증가(제1 삼분기, 제2 삼분기 및 제3 삼분기 모 혈장에 대해 각각 29.6%, 26.0%, 및 26.7%), G-단부의 비율의 약간의 증가(제1 삼분기, 제2 삼분기 및 제3 삼분기에 대해 각각 31.0%, 29.5%, 및 29.9%), T-단부의 비율의 상당한 감소(제1 삼분기, 제2 삼분기 및 제3 삼분기에 대해 각각 13.9%, 16.9%, 및 16.4%) 및 C-단부의 비율의 약간의 감소(제1 삼분기, 제2 삼분기 및 제3 삼분기에 대해 각각 25.5%, 27.5%, 및 27.1%)를 나타내었다.

도 49는 제1 삼분기, 제2 삼분기 및 제3 삼분기 모 혈장으로부터의 태아-특이적 대립형질을 포함하는 짧은 세포유리 DNA 분자 및 긴 세포유리 DNA 분자 사이의 단부 뉴클레오타이드 염기 비율의 표이다. 도 50은 제1 삼분기, 제2 삼분기 및 제3 삼분기 모 혈장으로부터의 모-특이적 대립형질을 포함하는 짧은 세포유리 DNA 분자 및 긴 세포유리 DNA 분자 사이의 단부 뉴클레오타이드 염기 비율의 표이다. 제1 열은 분자 단부에 있는 염기를 나타낸다. 제2 열은 예상 비율 점 및 종을 나타낸다. 제3 열은 제1 삼분기 모 혈장에 대한 500 bp 이하의 단편 중 단부 종의 비율을 나타낸다. 제4 열은 제1 삼분기 모 혈장에 대한 500 bp 초과의 단편 중 단부 종의 비율을 나타낸다. 제5 열 및 제6 열은 제2 삼분기 모 혈장을 제외하고 그리고 제1 삼 분기 모 혈장을 대신해서 각각 제3 열 및 제4 열과 유사하다. 제7 열 및 제8 열은 제3 삼분기 모 혈장을 제외하고 그리고 제1 삼 분기 모 혈장을 대신해서 각각 제3 열 및 제4 열과 유사하다. 도 49 및 도 50은 태아- 및 모-특이적 대립형질을 포함하는 DNA 분자를 개별적으로 조사한 경우에도 짧은 세포유리 DNA 분자 및 긴 세포유리 DNA 분자 사이의 단부 뉴클레오타이드 염기 비율의 이러한 차이가 변하지 않았다는 것을 나타낸다.

도 51은 256개의 사량체 단부 모티프를 사용한 짧은 혈장 세포유리 DNA 분자 및 긴 혈장 세포유리 DNA 분자의 계층적 클러스터링 분석을 나타낸다. 각각의 열은 각각 짧은 단편(제1 행에 청록색으로 표시)와 긴 단편(제1 행에 황색으로 표시)에 기초로 단부 모티프 빈도를 분석하는 데 사용되는 샘플을 나타낸다. 제2 행으로부터 시작하여, 각각의 행은 단부 모티프의 유형을 나타낸다. 단부 모티프 빈도는 행-정규화 빈도(z-점수)(즉, 샘플 전체의 평균 빈도 미만 또는 초과의 표준 편차 수)에 따라 일련의 색상 구배로 표시되었다. 적색이 진할수록 단부 모티프의 빈도가 높다는 것을 나타내고, 청색이 진할수록 단부 모티프의 빈도가 낮음을 나타낸다.

도 51에서, 본 발명자들은 사량체 단부 모티프 프로파일을 분석함으로써 짧은 세포유리 DNA 분자 및 긴 세포유리 DNA 분자를 특징규명하였다. 본 발명자들은 각각의 시퀀싱된 DNA 분자에 대해 개별적으로 Watson 및 Crick 가닥 둘 다의 5' 단부에서 첫 번째 4-뉴클레오타이드 서열(사량체 모티프)을 결정하였다. 각각의 모 혈장 샘플에 대해, 각각의 혈장 DNA 단부 모티프의 빈도를 짧은(≤ 500 bp) 혈장 DNA 분자 및 긴(> 500 bp) 혈장 DNA 분자에 대해 별도로 계산하였다. 256개의 사량체 단부 모티프의 빈도를 기반으로 한 계층적 클러스터링 분석은 다양한 모 혈장 샘플에 걸친 긴 DNA 분자의 단부 모티프 프로파일이 짧은 DNA 분자와 구별되는 클러스터를 형성한다는 것을 나타내었다. 이러한 결과는 긴 DNA와 짧은 DNA가 상이한 단편화 특성을 가지고 있음을 시사하였다. 실시형태에서, 세포 사멸 경로, 예컨대, 비제한적으로 세포자멸 및 괴사로부터 유래하는 세포유리 DNA의 기여도를 나타내기 위해 긴 DNA 분자와 짧은 DNA 분자 사이의 이러한 단부 모티프의 상대적인 섭동을 사용할 것이다. 이러한 세포 사멸 경로의 증가된 활동은 임신-연관 장애 및 다른 장애와 관련이 있을 수 있다.

도 52a 및 도 52b는 분류 분석을 위한 사량체 단부 모티프 프로파일을 사용한 주성분 분석(PCA)을 나타낸다. 도 52a는 상이한 삼분기의 짧은 세포유리 DNA 분자(≤ 500 bp)를 나타낸다. 도 52b는 상이한 삼분기로부터의 모 혈장 샘플의 긴 세포유리 DNA 분자(> 500 bp)를 나타낸다. x축 및 y축에서 괄호 안의 백분율은 해당 성분이 설명하는 변동성의 양을 나타낸다. 각각의 청색 점은 제1 삼분기 모 혈장 샘플 혈장 샘플을 나타낸다. 각각의 황색 점은 제2 삼분기 모 혈장 샘플 혈장 샘플을 나타낸다. 각각의 적색 점은 제3 삼분기 모 혈장 샘플 혈장 샘플을 나타낸다. 타원은 특정 삼분기로부터의 데이터 포인트를 군화하기 위한 95% 신뢰 수준을 나타낸다. 짧은 세포유리 DNA 분자(도 52a)(또한 미국 출원 번호 제15/787,050호에 기재됨)와 비교하여, 긴 세포유리 DNA 분자(도 52b)의 사량체 단부 모티프 프로파일은 제1 삼분기, 제2 삼분기 및 제3 삼분기 모 혈장 샘플 상이에 더 명확한 분리를 나타내었다. 실시형태에서, 분자 재태 연령 평가를 위해서, 긴 혈장 DNA 분자의 단부 모티프 프로파일을 단독으로 또는 메틸화 수준 및 크기를 포함하지만 이들로 제한되지 않는 다른 모 혈장 DNA 특징과 조합하여 활용할 수 있다.

예를 들어, 본 발명자들은 신경망을 사용하여 256개의 단부 모티프, 전체 메틸화 수준 및 600 bp 이상의 크기를 갖는 단편의 비율을 기반으로 재태 연령을 예측하는 모델을 훈련하였다. 출력 변수는 제1 삼분기, 제2 삼분기 및 제3 삼분기를 나타내는 1, 2, 3이었다. 입력 변수는 256개의 단부 모티프, 전체 메틸화 수준 및 600 bp 이상의 크기를 갖는 단편의 비율을 포함하였다. 본 발명자들은 재태 연령 예측의 성능을 평가하기 위해 리브-원-아웃(leave-one-out) 접근법을 사용하였다. 9개의 샘플을 포함하는 데이터세트의 경우, 리브-온-아웃 접근법은 하나의 샘플을 시험 샘플로 선택하고, 나머지 8개의 샘플은 신경망 기반 모델을 훈련하기 위해서 사용되는 방식으로 수행되었다. 이러한 시험 샘플은 확립된 모델에 따라 1, 2 또는 3으로 결정되었다. 그런 다음 아직 시험되지 않은 다른 샘플에 대해 이 프로세스를 반복하였다. 이러한 훈련 및 시험 과정을 총 9회 반복하였다. 이러한 시험 결과를 재태 연령에 대한 임상 정보와 비교하여, 9개 샘플 중 8개(89%)의 재태 연령을 정확하게 예측하였다. 또 다른 실시형태에서, 이러한 분석은 예를 들어, 베이즈 정리, 로지스틱 회귀, 다중 회귀 및 지원 벡터 머신, 랜덤 포레스트 분석, 분류 및 회귀 트리(CART), K-최근접 이웃 알고리즘을 사용하여 수행할 수 있지만 이들로 제한되지 않는다.

다음으로, 임신의 각각의 삼분기에서 얻은 샘플로부터의 모든 시퀀싱된 분자를 다운스트림 단부 모티프 분석을 위해 함께 풀링하였다. 256개의 단부 모티프를 짧은 혈장 DNA 및 긴 혈장 DNA 분자 사이의 빈도에 따라 순위 매겼다.

도 53 내지 도 58은 특정 길이의 DNA 단편(500 bp보다 짧거나 긴) 및 상이한 삼분기에 대해 가장 높은 빈도를 갖는 25개의 단부 모티프의 표이다. 도 53, 도 54 및 도 55는 짧은 단편(< 500 bp)에서 순위에 따라 정렬된 단부 모티프가 있는 표이다. 도 53 내지 도 55에서, 제1 열은 단부 모티프를 나타낸다. 제2 열은 짧은 단편에서 모티프의 빈도 순위를 나타낸다. 제3 열은 긴 단편에서 모티프의 빈도 순위를 나타낸다. 제4 열은 짧은 단편에서 모티프의 빈도를 나타낸다. 제5 열은 긴 단편에서 모티프의 빈도를 나타낸다. 제6 열은 배수 변화(짧은 단편의 모티프 빈도를 긴 단편의 모티프 빈도로 나눈 값)를 나타낸다.

도 56, 도 57 및 도 58은 긴 단편(> 500 bp)에서 순위에 따라 정렬된 단부 모티프가 있는 표이다. 도 56 내지 도 58에서, 제1 열은 단부 모티프를 나타낸다. 제2 열은 긴 단편에서 모티프의 빈도 순위를 나타낸다. 제3 열은 짧은 단편에서 모티프의 빈도 순위를 나타낸다. 제4 열은 긴 단편에서 모티프의 빈도를 나타낸다. 제5 열은 짧은 단편에서 모티프의 빈도를 나타낸다. 제6 열은 배수 변화(긴 단편의 모티프 빈도를 짧은 단편의 모티프 빈도로 나눈 값)를 나타낸다.

도 53 및 도 56은 제1 삼분기 샘플로부터 유래된다. 도 54 및 도 57은 제2 삼분기 샘플로부터 유래된다. 도 55 및 도 58은 제3 삼분기 샘플로부터 유래된다.

짧은 혈장 DNA 분자 중 빈도가 가장 높은 상위 25개 단부 모티프 중 11개는 CC 디뉴클레오타이드로 시작하였다. CC로 시작하는 단부 모티프는 제1 삼분기, 제2 삼분기 및 제3 삼분기 모 혈장에서 각각 짧은 혈장 DNA 단부 모티프의 14.66%, 14.66% 및 15.13%를 차지하였다. 긴 혈장 DNA 분자 중 빈도가 가장 높은 상위 25개 단부 모티프 중 TT 디뉴클레오타이드로 끝나는 사량체 모티프는 제2 삼분기 및 제3 삼분기 모 혈장 모 혈장에서 9개, 제1 삼분기 모 혈장에서 10개를 차지하였다.

본 발명자들은 각각의 시퀀싱된 DNA 분자에 대해 개별적으로 Watson 및 Crick 가닥 모두의 5' 단부에서 세 번째(X) 및 네 번째 뉴클레오타이드(Y)의 디뉴클레오타이드 서열을 결정하였다. X 및 Y는 DNA의 4개 염기 중 하나일 수 있다. NNAA, NNAT, NNAG, NNAC, NNTA, NNTT, NNTG, NNTC, NNGA, NNGT, NNGG, NNGC, NNCA, NNCT, NNCG, 및 NNCC 등의 16개의 가능한 NNXY 모티프가 존재하였다.

도 59a, 도 59b 및 도 59c는 짧은 DNA 분자 및 긴 혈장 DNA 분자 중 16개의 NNXY 모티프의 모티프 빈도의 산점도를 나타낸다. 도 59a는 제1 삼분기에 대한 결과를 나타낸다. 도 59b는 제2 삼분기의 결과를 나타낸다. 도 59c는 제3 삼분기에 대한 결과를 나타낸다. 긴 단편의 모티프 빈도를 y축에 나타낸다. 짧은 단편의 모티프 빈도를 x축에 나타낸다. 각각의 원은 16개의 NNXY 모티프 중 하나를 나타낸다. 각각의 산점도에서 한 쌍의 점선은 짧은 혈장 DNA 분자(≤ 500 bp)에 비해 긴 혈장 DNA 분자(> 500 bp)의 모티프 빈도가 1.5배 증가(상단) 및 감소(하단)되었음을 나타낸다. 음영이 있는 영역 외부에 위치된 원은 1.5 초과의 배수 변화를 갖는 모티프를 나타낸다.

짧은 혈장 DNA 분자의 단부가 CC 디뉴클레오타이드(CCNN)로 시작하는 사량체 모티프의 높은 빈도를 나타내었지만(문헌[Jiang et al. Cancer Discov 2020;10(5):664-673]; 문헌[Chan et al. Am J Hum Genet 2020;107(5):882-894]), 긴 혈장 DNA 분자의 단부는 3개의 모든 삼분기에 걸쳐 TT(NNTT)로 끝나는 4량체 모티프의 빈도에서 1.5 초과의 배수 증가를 나타내었다(도 11). NNTT 모티프는 제1 삼분기, 제2 삼분기 및 제3 삼분기 모 혈장에서 각각 긴 혈장 DNA 단부 모티프의 18.94%, 15.22% 및 15.30%를 차지하였다. 반대로, NNTT 모티프는 제1 삼분기, 제2 삼분기 및 제3 삼분기 모 혈장에서 각각 짧은 혈장 DNA 단부 모티프의 9.53%, 9.29% 및 8.91%만을 차지하였다.

한(Han) 등이 이전에 보고한 바와 같이, 죽어가는 세포에서 혈장으로 새로 방출된 세포유리 DNA는 150 bp 초과의 A-단부 단편이 풍부하였다. 세포자멸사 동안 DNA 단편화에 관여하는 주요 세포내 뉴클레아제인 DNA 단편화 인자 베타(DFFB)는 이러한 단편을 생성하는 역할을 하는 것으로 밝혀졌다(문헌[Han et al. Am J Hum Genet 2020;106:202-214]). 본 개시내용에서, 본 발명자들은 500 bp 초과의 긴 세포유리 DNA 분자가 또한 A-단부 단편이 풍부하다는 것을 보여주었는데, 이는 DFFB가 이러한 단편을 생성하는 역할도 할 수 있음을 시사한다. 정상 임신에서, 영양막 세포자멸사는 임신이 진행됨에 따라 증가한다(문헌[Sharp et al. Am J Reprod Immuno 2010;64(3):159-69]). 실제로, 삼분기가 진행됨에 따라 태아-특이적 대립형질을 포함하는 긴 DNA 분자의 비율이 증가한다는 발견은 삼분기가 진행함에 따라 영양막 세포자멸사가 증가하는 것을 반영할 수 있다.

실시형태에서, 전자간증, 자궁내 성장 제한(IUGR), 조산 및 임신성 영양막 질환을 포함하지만 이에 제한되지 않는 태반 관련 임신 합병증의 예측, 스크리닝 및 진행 모니터링을 위해 모 혈장에서 긴 세포유리 DNA 분자를 분석하기 위해 본원에 기재된 방법을 사용할 수 있다. 자간전증(문헌[Leung et al. Am J Obstet Gynecol 2001;184:1249-1250]), IUGR(문헌[Smith et al. Am J Obstet Gynecol 1997;177:1395-1401]; 문헌[Levy et al. Am J Obstet Gynecol 2002;186:1056-1061]) 및 임신성 영양막 질환과 같은 태반 관련 임신 합병증에서 영양막 세포자멸사 수준의 증가가 보고되어 있다. 더욱이, 자간전증(문헌[Lo et al. Clin Chem 1999;45(2):184-8]; 문헌[Smid et al. Ann N Y Acad Sci 2001;945:132-7]), IUGR(문헌[Sekizawa et al. Am J Obstet Gynecol 2003;188:480-4]) 및 조산(문헌[Leung et al. Lancet 1998;352(9144):1904-5])에서 산모 혈장에서 태아 DNA의 수준 증가가 보고되어 있다. 본 발명자들은 태반 관련 임신 합병증에서 태반 세포자멸사 증가로 인해 모 혈장 샘플에서 태반 기원의 긴 세포유리 DNA 분자의 비율이 증가할 것이라고 가정하였다. 따라서, 태반 기원의 긴 세포유리 DNA 분자, 뿐만 아니라 A-단부 단편 및 NNTT 모티프를 포함하지만 이들로 제한되지 않는 긴 DNA 시그니처는 태반 세포자멸사에 대한 생체표지자 역할을 할 수 있다.

상기 분석에서는 1-뉴클레오타이드 및 4-뉴클레오타이드 모티프가 사용되지만 다른 길이의 모티프, 예를 들어 2, 3, 5, 6, 7, 8, 9, 10 또는 그 초과가 다른 실시형태에서 사용될 수 있다.

C. 예시적인 방법

긴 세포유리 DNA 단편을 사용하여 태아를 임신한 여성의 재태 연령을 결정할 수 있다. 긴 세포유리 DNA 단편의 양은 재태 연령에 따라 다르며 이를 사용하여 재태 연령을 결정할 수 있다. 세포유리 DNA 단편의 단부 모티프 또한 재태 연령에 따라 다르며 이를 사용하여 재태 연령을 결정할 수 있다. 긴 세포유리 DNA 단편을 사용하여 결정된 재태 연령이 다른 임상 기술을 통해 결정된 재태 연령과 크게 다를 경우 임신한 여성 및/또는 태아는 임신-연관 장애가 있는 것으로 간주될 수 있다. 일부 실시형태에서, 임신-연관 장애의 우도를 결정하기 위해 재태 연령을 결정할 필요가 없을 수 있다.

1. 재태 연령

도 60은 태아를 임신한 여성으로부터 얻은 생물학적 샘플의 분석 방법(6000)을 나타낸다. 재태 연령을 결정하고, 이를 사용하여 임신-연관 장애의 우도를 분류할 수 있다. 생물학적 샘플은 태아 및 여성으로부터의 복수의 세포유리 DNA 분자를 포함할 수 있다.

복수의 세포유리 DNA 분자에 상응하는 서열 판독물을 제공받을 수 있다. 일부 실시형태에서, 서열 판독물을 획득하기 위한 시퀀싱이 수행될 수 있다.

블록 6020에서, 복수의 세포유리 DNA 분자의 크기가 측정될 수 있다. 크기는 도 21에서 설명한 것과 유사한 방식으로 측정될 수 있다. 크기는 서열 판독물을 사용하여 측정될 수 있다.

블록 6030에서, 컷오프 값보다 큰 크기를 갖는 세포유리 DNA 분자의 제1 양이 측정될 수 있다. 양은 수, 전체 길이 또는 세포유리 DNA 분자의 질량일 수 있다.

블록 6040에서, 제1 양을 사용하는 정규화된 매개변수의 값이 생성될 수 있다. 정규화된 매개변수의 값은 세포유리 DNA 분자의 총 수, 태아 또는 산모의 세포유리 DNA 분자 수 또는 특정 영역의 DNA 분자 수에 의해 정규화된 첫 번째 양일 수 있다. 예를 들어, 정규화된 매개변수는 도 46a 내지 도 46c에 기재된 바와 같이 태아-특이적 단편의 비율일 수 있다.

블록 6050에서, 정규화된 매개변수의 값은 하나 이상의 보정 데이터 포인트와 비교될 수 있다. 각각의 보정 데이터 포인트는 정규화된 매개변수의 보정 값에 상응하는 재태 연령을 지정할 수 있다. 예를 들어, 특정 삼분기 또는 특정 주 수의 재태 연령은 정규화된 매개변수의 보정 값에 상응할 수 있다. 하나 이상의 보정 데이터 포인트는 재태 연령이 알려져 있고 컷오프 값보다 큰 크기를 갖는 세포유리 DNA 분자를 포함하는 복수의 보정 샘플로부터 결정될 수 있다. 일부 실시형태에서, 보정 데이터 포인트는 재태 연령을 정규화된 매개변수의 값과 상관시키는 함수로부터 결정된다.

블록 6060에서, 비교를 사용하여 재태 연령이 결정될 수 있다. 재태 연령은 정규화된 매개변수의 값에 가장 가까운 보정 값에 상응하는 연령으로 간주될 수 있다. 일부 실시형태에서, 재태 연령은 정규화된 매개변수의 값이 초과한 보정 값에 상응하는 가장 진행된 연령인 것으로 간주될 수 있다.

방법은 초음파 또는 여성의 마지막 월경 날짜를 이용하여 태아의 참조 재태 연령을 결정하는 단계를 더 포함할 수 있다. 방법은 또한 재태 연령을 참조 재태 연령과 비교하는 단계를 포함할 수 있다. 방법은 재태 연령과 참조 재태 연령의 비교를 사용하여 임신-연관 장애의 우도의 분류를 결정하는 단계를 추가로 포함할 수 있다. 예를 들어, 재태 연령과 참조 재태 연령 사이의 불일치는 임신-연관 장애를 나타낼 수 있다. 불일치는 상이한 삼분기 또는 최소 주 수(예를 들어, 1, 2, 3, 4, 5, 6, 7주 이상)의 재태 연령 차이일 수 있다.

방법은 단부 모티프를 사용하는 단계를 더 포함할 수 있다. 예를 들어, 방법은 컷오프 값보다 큰 크기를 갖는 세포유리 DNA 분자의 적어도 하나의 단부에 상응하는 제1 하위서열을 결정하는 단계를 포함할 수 있다. 제1 양은 컷오프 값보다 큰 크기를 갖고 각각의 세포유리 DNA 분자의 하나 이상의 단부에 제1 하위서열을 갖는 세포유리 DNA 분자일 수 있다. 제1 하위서열은 1, 2, 3, 4, 5 또는 6개의 뉴클레오타이드이거나 이를 포함할 수 있다. 단부 모티프를 사용하여 도 52a 내지 도 52b에 기재된 바와 같이 PCA 분석을 통해 재태 연령을 결정할 수 있다. 보정 샘플은 상이한 단부 모티프 및 알려진 재태 연령과 함께 사용할 수 있고, 이를 PCA 분석에 적용할 수 있다. 선형 판별 분석, 로지스틱 회귀, 지원 벡터 기계, 선형 회귀, 비선형 회귀 등과 같은 다른 분류 및 회귀 알고리즘을 단부 모티프에 사용할 수 있다. 분류 및 회귀 알고리즘은 재태 연령을 특정 단부 모티프 및/또는 특정 크기의 단편과 관련될 수 있다.

단부 모티프는 도 47 내지 도 59 또는 도 94에서 논의된 임의의 모티프일 수 있다. 단부 모티프의 순위 또는 빈도를 알려진 재태 연령의 대상체의 보정 샘플에서 단부 모티프의 순위 또는 빈도와 비교할 수 있다. 그 다음 단부 모티프의 순위 또는 빈도를 사용하여 재태 연령을 결정할 수 있다. 동일한 재태 연령의 참조 샘플로부터 결정된 순위 또는 빈도를 벗어난 순위 또는 빈도에 존재하는 단부 모티프가 임신-연관 장애를 나타낼 수 있다.

정규화된 매개변수의 값을 생성하는 것은 (a) 컷오프 값보다 큰 크기를 갖는 세포유리 DNA 분자의 총량에 의해 제1 양을 정규화하는 단계; (b) 컷오프 값보다 큰 크기를 갖고 제2 하위서열로 끝나는 세포유리 DNA 분자의 제2 양에 의해 제1 양을 정규화하는 단계로서, 제2 하위서열은 제1 하위서열과 상이한, 단계 또는 (c) 컷오프 값보다 작은 크기를 갖는 세포유리 DNA 분자의 제3 양에 의해 제1 양을 정규화하는 단계를 포함할 수 있다.

2. 임신-연관 장애

도 61은 태아를 임신한 여성으로부터 얻은 생물학적 샘플의 분석 방법(6100)을 나타낸다. 실시형태는 재태 연령을 반드시 결정하지 않고도 임신-연관 장애의 우도를 분류하는 것을 포함할 수 있다. 생물학적 샘플은 태아 및 여성으로부터의 복수의 세포유리 DNA 분자를 포함할 수 있다.

블록 6120에서, 복수의 세포유리 DNA 분자의 크기가 측정될 수 있다. 크기는 도 21에서 설명한 것과 유사한 방식으로 얻을 수 있다. 측정 크기는 제공받은 서열 판독물을 사용할 수 있다.

블록 6130에서, 컷오프 값보다 큰 크기를 갖는 세포유리 DNA 분자의 제1 양이 측정될 수 있다. 컷오프 값은 200 nt 이상일 수 있다. 컷오프 값은 600 nt, 700 nt, 800 nt, 900 nt, 1 knt, 1.1 knt, 1.2 knt, 1.3 knt, 1.4 knt, 1.5 knt, 1.6 knt, 1.7 knt, 1.8 knt, 1.9 knt 또는 2 knt를 포함하여 적어도 500 nt일 수 있다. 컷오프 값은 긴 세포유리 DNA 분자에 대해 본원에 기재된 임의의 컷오프 값일 수 있다. 제1 양은 수 또는 빈도일 수 있다.

블록 6140에서, 제1 양을 사용하는 정규화된 제1 매개변수 값이 생성될 수 있다. 정규화된 매개변수의 값을 생성하는 것은 컷오프 값보다 작은 크기를 포함하는 세포유리 DNA 분자의 제2 양을 측정하는 단계; 및 제1 양과 제2 양의 비율을 계산하는 단계를 포함한다. 컷오프 값은 제1 컷오프 값일 수 있다. 제2 컷오프 값은 제1 컷오프 값보다 작을 수 있다. 제2 양은 제2 컷오프 값보다 작은 크기를 갖는 세포유리 DNA 분자를 포함할 수 있거나, 제2 양은 복수의 세포유리 DNA 분자 내의 모든 세포유리 DNA 분자를 포함할 수 있다. 정규화된 매개변수는 긴 세포유리 DNA 분자의 빈도를 측정할 수 있다.

블록 6150에서, 건강한 임신에 대한 정규화된 매개변수의 기대값에 상응하는 제2 값이 얻어질 수 있다. 제2 값은 태아의 재태 연령에 따라 달라질 수 있다. 제2 값은 예상된 값일 수 있다. 일부 실시형태에서, 제2 값은 비정상 값과 구별되는 컷오프 값일 수 있다.

제2 값을 얻는 것은 임신한 여성의 측정값을 정규화된 매개변수의 보정 값과 관련시킨 보정 표로부터 제2 값을 얻는 것을 포함할 수 있다. 보정 표는 재태 연령을 임신한 여성 대상체의 측정값과 관련시킨 제1 표를 얻음으로써 생성될 수 있다. 재태 연령을 정규화된 매개변수의 보정 값과 관련시킨 제2 표를 얻을 수 있다. 제1 표 및 제2 표의 데이터는 동일한 대상체 또는 상이한 대상체로부터 유래할 수 있다. 측정값을 보정값과 관련시킨 보정 표는 제1 표 및 제2 표에서 생성될 수 있다. 보정 표는 보정값을 측정값과 관련시키는 함수를 포함할 수 있다.

임신한 여성 대상체의 측정값은 마지막 월경 기간 이후의 시간 또는 임신 여성 대상체의 영상(예를 들어, 초음파)의 특징일 수 있다. 임신한 여성 대상체의 측정값은 임신한 여성 대상체의 영상의 특징일 수 있다. 예를 들어, 영상의 특징은 여성 대상체의 태아의 길이, 크기, 외모 또는 해부학적 구조를 포함할 수 있다. 특징은 생체 측정값, 예를 들어, 머리 엉덩이 길이(crown-rump length) 또는 대퇴골 길이를 포함할 수 있다. 4-방 심장 또는 척수의 추골의 외관을 포함하여 특정 기관의 외관이 사용될 수 있다. 재태 연령은 의사가 초음파 영상으로부터 결정할 수 있다(예를 들어, 문헌[Committee on Obstetric Practice et al., "Methods for Estimated date," Committee Opinion, No. 700, May 2017]).

일부 실시형태에서, 기계 학습 모델은 하나 이상의 보정 데이터 포인트를 영상의 특징과 연관시킬 수 있다. 모델은 복수의 훈련 영상을 제공받음으로써 훈련될 수 있다. 각각의 훈련 영상은 임신-연관 장애가 없는 것으로 알려진 여성 대상체 또는 임신-연관 장애를 갖지 않는 것으로 알려진 여성 대상체의 것일 수 있다. 여성 대상체는 다양한 재태 연령을 가질 수 있다. 훈련은 여성 대상체로부터의 복수의 훈련 샘플을 저장하는 것을 포함할 수 있다. 각각의 훈련 샘플은 훈련 영상과 연관된 정규화된 매개변수의 알려진 값을 포함할 수 있다. 모델은 정규화된 매개변수의 알려진 값과 영상이 일치하거나 일치하지 않는 모델의 출력에 기초하여 복수의 훈련 샘플을 사용하여 모델의 매개변수를 최적화함으로써 훈련될 수 있다. 모델의 출력은 영상에 상응하는 정규화된 매개변수의 값을 지정할 수 있다. 정규화된 제2 매개변수 값은 여성의 영상을 기계 학습 모델에 입력하여 생성할 수 있다.

블록 6160에서, 정규화된 제1 매개변수 값과 정규화된 제2 매개변수 값 사이의 편차가 결정될 수 있다. 편차는 분리 값일 수 있다.

블록 6170에서, 임신-연관 장애의 우도의 분류는 편차를 사용하여 결정될 수 있다. 편차가 역치를 초과하면 임신-연관 장애가 발생할 수 있다. 역치는 통계학적으로 유의미한 차이를 나타낼 수 있다. 역치는 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% 또는 100%의 차이를 나타낼 수 있다.

임신-연관 장애는 자간전증, 자궁내 성장 제한, 칩습 태반, 조산, 신생아의 용혈성 질환, 태반 기능부전, 태아 수종, 태아 기형, 용혈, 간 효소 상승 및 저혈소판 수치(HELLP) 증후군 또는 전신 홍반성 루푸스를 포함할 수 있다.

IV. 임신-연관 장애에 대한 크기 및 단부 분석

긴 DNA 분자의 크기 및/또는 단부 분석을 사용하여 자간전증의 우도를 결정하였다. 이러한 방법은 다른 임신-연관 장애에도 적용될 수 있다. 자간전증으로 진단된 4명의 임신한 여성의 모 혈장 샘플에서 추출한 DNA를 단일 분자 실시간(SMRT) 시퀀싱(PacBio)에 적용하였다.

도 62는 4개의 자간전증 사례의 임상 정보를 나타내는 표이다. 제1 열은 케이스 번호를 나타낸다. 제2 열은 혈액 샘플링을 쉬는 시간에 재태 연령을 주 단위로 나타낸다. 제3 열은 태아의 성별을 나타낸다. 제4 열은 자간전증(PET)에 관한 임상 정보를 나타낸다.

M12804는 중증 자간전증(PET) 및 기존 IgA 신병증의 사례였다. M12873은 경증 PET가 중첩된 만성 고혈압 사례였다. M12876은 중증의 후기 발병 PET 사례였다. M12903은 자궁내 성장 제한(IUGR)이 있는 중증 후기 발병 PET의 사례였다. 5개의 정상혈압 제3 삼분기 모 혈장 샘플을 본 개시내용의 후속 분석을 위한 대조군으로 사용하였다.

본 개시내용을 위해 분석된 4개의 자간전증 및 5개의 정상혈압 제3 삼분기 모 혈장 DNA 샘플의 경우, 쌍을 이룬 산모 버피 코트 및 태반 샘플로부터 추출된 DNA를 iScan 시스템(Illumina)에서 Infinium Omni2.5Exome-8 Beadchip으로 유전형분석하였다.

각각의 샘플의 혈장 DNA 농도는 Qubit Fluorometer(ThermoFisher Scientific)를 사용한 Qubit dsDNA 고감도 분석에 의해 정량화하였다. 자간전증 및 제3 삼분기 사례에 대한 평균 혈장 DNA 농도는 각각 혈장 95.4 ng/mL(범위, 52.1 내지 153.8 ng/mL) 및 혈장 10.7 ng/mL(6.4 내지 19.1 ng/mL)였다. 자간전증 환자의 평균 혈장 DNA 농도는 제3 삼분기 사례보다 대략 9배 높았다.

모가 동형접합성이고 태아가 이형접합성인 정보가 있는 단일 염기 다형성(SNP)을 포함하는 600 bp 이하의 DNA 분자의 시퀀싱 데이터로부터 결정된 평균 태아 DNA 분율은 자간전증 및 정상혈압 제3 삼분기 모 혈장 샘플의 경우 각각 22.6%(범위, 16.6 내지 25.7%) 및 20.0%(범위, 15.6 내지 26.7%)였다.

A. 크기 분석

크기 분석을 본 개시내용의 실시형태에 따른 자간전증 및 정상혈압 제3 삼분기 모 혈장 샘플에 대해 수행하였다. 도 63a 내지 도 63d 및 도 64a 내지 도 64d는 자간전증 및 정상혈압 제3 삼분기 사례로부터의 혈장 DNA 분자의 크기 분포를 나타낸다. x축은 크기를 나타낸다. y-축은 빈도를 나타낸다. 크기 분포는 도 63a 내지 도 63d의 경우 x축에 대한 선형 배율에 대해서 0 내지 1 kb 범위로 플로팅되고, 도 64a 내지 도 64d의 경우 x축에 대한 로그 배율에 대해서 0에서 5 kb 범위로 플로팅된다. 도 63a 및 도 64a는 샘플 M12804를 나타낸다. 도 63b 및 도 64b는 샘플 M12873을 나타낸다. 도 63c 및 도 64c는 샘플 M12876을 나타낸다. 도 63d 및 도 64d는 샘플 M12903을 나타낸다.

청색 선은 5개의 정상혈압 제3 삼분기 사례에서 풀링된 모든 시퀀싱된 혈장 DNA 분자의 크기 분포를 나타낸다. 적색 선은 개별 자간전증 사례에서 시퀀싱된 혈장 DNA 분자의 크기 분포를 나타낸다. 도 63a 내지 도 63d에서, 청색 선은 200 bp 미만의 짧은 피크의 선이고, 300 내지 400 bp의 높은 피크 선이다. 도 64a 내지 도 64d에서, 청색 선은 1 kb에서 더 높은 선에 상응한다.

일반적으로, 자간전증 환자의 혈장 DNA 크기 프로파일은 정상혈압 제3 삼분기의 임신한 여성보다 짧았고, 166-bp 피크 높이가 증가하고 166 bp 보다 짧은 DNA 분자 비율이 증가하였다(도 63a 내지 도 63d). 이러한 변화는 두 가지 중증 자간전증 사례 M12876 및 M12903에서 더 두드러졌다. 자궁내 성장 제한(IUGR)이 있는 자간전증 사례 M12903에서 이러한 변화는 훨씬 더 극적이었다.

4개의 자간전증 혈장 샘플 중 3개는 크기가 200 내지 5000 bp인 긴 혈장 DNA 분자의 비율이 감소한 것으로 나타났다(도 64b 내지 도 64d). M12873, M12876 및 M12903에서 500 bp 초과의 긴 혈장 DNA 분자의 비율은 각각 11.7%, 8.9% 및 4.5%인 반면, 5개의 정상혈압 제3 삼분기 사례의 풀링 시퀀싱 데이터에서 긴 혈장 DNA 분자의 비율은 32.3%였다. 태아-특이적 대립형질을 포함하는 혈장 DNA 분자 중 2000 kb 미만의 짧은 DNA 분자의 비율이 증가하고, 2000 kb 초과의 긴 DNA 분자의 비율이 감소한 기존 IgA 신병증이 있는 중증 PET의 사례 M12804는 예외였다(도 2a). M12804에서 긴 혈장 DNA 분자의 비율은 34.9%였다.

도 65a 내지 도 65d 및 도 66a 내지 도 66d는 자간전증 및 제3 삼분기 모 혈장 샘플로부터의 태아-특이적 대립형질을 포함하는 DNA 분자의 크기 분포를 나타낸다. A부터 D까지의 각각의 도면은 상이한 자간전증 샘플을 나타낸다. x축은 크기를 나타낸다. y축은 도 65a 내지 도 65d에서는 빈도를 나타내고, 도 66a 내지 도 66d에서는 누적 빈도를 나타낸다. 도 66a 내지 도 66d에서, 크기는 0 내지 35 kb이다.

각각의 그래프에서 청색 선은 5개의 정상혈압 제3 삼분기 사례에서 풀링된 태아-특이적 대립형질을 포함하는 모든 시퀀싱된 혈장 DNA 분자의 크기 분포를 나타낸다. 각각의 그래프에서 적색 선은 개별 자간전증 사례로부터의 태아-특이적 대립형질을 포함하는 시퀀싱된 혈장 DNA 분자의 크기 분포를 나타낸다. 도 65a 내지 도 65d에서, 청색 선은 200 bp 미만의 짧은 피크의 선이고, 300 내지 400 bp의 높은 피크 선이다. 도 66a 내지 도 66d에서, 청색 선은 100 내지 1000 bp에서 더 낮은 피크의 선에 상응한다.

도 67a 내지 도 67d 및 도 68a 내지 도 68d는 자간전증 및 제3 삼분기 모 혈장 샘플로부터의 태아-특이적 대립형질을 포함하는 DNA 분자의 크기 분포를 나타낸다. a부터 d까지의 각각의 도면은 상이한 자간전증 샘플을 나타낸다. x축은 크기를 나타낸다. y축은 도 67a 내지 도 67d에서는 빈도를 나타내고, 도 68a 내지 도 68d에서는 누적 빈도를 나타낸다. 도 68a 내지 도 68d에서, 크기는 0 내지 35 kb이다.

각각의 그래프에서 청색 선은 5개의 정상혈압 제3 삼분기 사례에서 풀링된 모-특이적 대립형질을 포함하는 모든 시퀀싱된 혈장 DNA 분자의 크기 분포를 나타낸다. 각각의 그래프에서 적색 선은 개별 자간전증 사례로부터의 모-특이적 대립형질을 포함하는 시퀀싱된 혈장 DNA 분자의 크기 분포를 나타낸다. 도 67a에서, 청색 선은 200 bp 미만의 긴 피크의 선이고, 300 내지 400 bp의 높은 피크 선이다. 도 67a 내지 도 67d에서, 청색 선은 200 bp 미만의 짧은 피크의 선이다. 도 68a에서, 청색 선은 1000 내지 10000 bp에서 더 높은 선에 상응한다. 도 68b 내지 도 68d에서, 청색 선은 100 내지 1000 bp에서 더 낮은 피크의 선에 상응한다.

혈장 DNA 단축 현상은 정상혈압 제3 삼분기 모 혈장 샘플과 비교하는 경우 4개의 자간전증 혈장 샘플 중 3개에서 태아-특이적 대립형질을 포함하는 DNA 분자(도 65b 내지 도 65d 및 도 66b 내지 도 66d) 및 모-특이적 대립형질을 포함하는 DNA 분자(도 67b 내지 도 67d 및 도 68b 내지 도 68d) 둘 다에서 관찰되었다. 태아-특이적 대립형질을 포함하는 혈장 DNA 분자 중 1 kb 미만의 짧은 DNA 분자의 비율이 증가하고, 1 kb 초과의 긴 DNA 분자의 비율이 감소한 기존 IgA 신병증이 있는 중증 PET의 사례 M12804는 예외였다(도 65a 및 도 66a). 사실, 사례 M12804에서 모-특이적 대립형질을 포함하는 혈장 DNA 분자는 길어진 크기 프로파일을 나타내었다(도 67a 및 도 68a).

도 69a 및 도 69b는 PacBio SMRT 시퀀싱으로 시퀀싱된 자간전증 및 정상혈압 모 혈장 샘플에서 (a) 태아-특이적 대립형질 및 (b) 모-특이적 대립형질을 포함하는 짧은 DNA 분자의 비율의 그래프이다. y-축은 150 bp 미만의 짧은 DNA 단편의 비율을 나타낸다. x축은 정상 및 PET 샘플을 나타낸다.

실시형태에서, 짧은 DNA 분자의 비율은 150 bp 미만의 크기를 갖는 모 혈장 DNA 분자의 백분율로 정의되었다. M12804는 기존 IgA 신병증이 있었지만 다른 샘플에는 없었기 때문에 이 분석에서 제외되었다. 자간전증 혈장 샘플 군은 정상혈압 대조군 혈장 샘플 군과 비교하는 경우 태아-특이적 대립형질(P = 0.036, 윌콕슨 순위 합계 시험)과 모-특이적 대립형질(P = 0.036, 윌콕슨 순위 합계 시험)을 포함하는 짧은 DNA 분자의 비율이 유의미하게 증가한 것으로 나타났다.

도 70a 및 도 70b는 (a) PacBio SMRT 시퀀싱 및 (b) Illumina 시퀀싱으로 시퀀싱된 자간전증 및 정상혈압 모 혈장 샘플에서 짧은 DNA 분자의 비율의 그래프이다. y-축은 150 bp 미만의 짧은 DNA 단편의 비율을 나타낸다.

실시형태에서, 짧은 DNA 분자의 비율은 150 bp 미만의 크기를 갖는 모 혈장 DNA 분자의 백분율로 정의되었다. M12804는 이 사례에서 기존의 IgA 신병증으로 인해 이 코호트의 다른 자간전증 사례와 비교하여 다른 크기 프로필을 나타내었기 때문에 이 분석에서 제거되었다. 자간전증 혈장 샘플 군은 정상혈압 대조군 혈장 샘플 군(중간값: 12.1%, 범위: 8.5 내지 15.8%)과 비교할 때 짧은 DNA 분자의 비율이 유의미하게 증가하였음을(중간값: 28.0%, 범위: 25.8~35.1%)을 나타내었다(P = 0.036, 윌콕슨 순위합 검정). 대조적으로, 바이설파이트 전환 및 Illumina 시퀀싱된 4개의 자간전증 및 4개의 재태 연령-일치 정상혈압 산모 혈장 DNA 샘플의 이전 코호트에서 자간전증 혈장과 대조군 혈장 샘플에서 짧은 DNA 분자의 비율은 크게 상이하지는 않았다(P=0.340, 윌콕슨 순위합 검정)(도 70b).

일부 실시형태에서 PacBio SMRT 시퀀싱으로 시퀀싱된 모 혈장 샘플에서 짧은 DNA 분자의 비율에 대해 20%의 컷오프를 사용하여 임신이 자간전증 발병 위험이 높은지 낮은지 결정할 수 있다. 짧은 DNA 분자 비율이 20% 초과인 모 혈장 샘플은 자간전증 발병 위험이 높은 것으로 결정되는 반면, 짧은 DNA 분자 비율이 20% 미만인 모 혈장 샘플은 자간 전증 발병 위험이 낮은 것으로 결정될 것이다. 이 컷오프를 사용하면 감도 및 특이도가 모두 100%였다. 일부 다른 실시형태에서, 사용된 짧은 DNA 분자의 비율에 대한 컷오프는 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60% 등을 포함할 수 있지만 이들로 제한되지 않는다. 또 다른 실시형태에서, 모 혈장 샘플에서 짧은 DNA 분자의 비율은 임신 중 자간전증의 중증도를 모니터링하고 평가하기 위해 사용될 것이다.

실시형태에서, 짧은 DNA 분자 및 긴 DNA 분자의 상대적인 비율을 나타내는 크기 비율을 다음 방정식을 사용하여 각각의 샘플에 대해 계산하였다.

여기서, P(50 - 150)은 50 bp 내지 150 bp 범위의 크기를 갖는 시퀀싱된 혈장 DNA 분자의 비율을 나타내고; P(200 - 1000)은 200 bp 내지 1000 bp 범위의 크기를 갖는 시퀀싱된 혈장 DNA 분자의 비율을 나타낸다.

도 71은 PacBio SMRT 시퀀싱으로 시퀀싱된 자간전증 및 정상혈압 모 혈장 샘플에서 짧은 DNA 분자와 긴 DNA 분자의 상대적 비율을 나타내는 크기 비율의 그래프이다. Y축은 크기 비율을 나타낸다. x축은 정상 및 PET 샘플을 나타낸다. 자간전증 혈장 샘플 군은 정상혈압 대조군 혈장 샘플 군에 비해 유의미하게 높은 크기 비율을 보였다(P = 0.016, 윌콕슨 순위합 검정).

실시형태에서 PacBio SMRT 시퀀싱 및 Oxford Nanopore 시퀀싱을 포함하지만 이들로 제한되지 않는 긴-판독물 시퀀싱 플랫폼으로부터 생성된 크기 프로파일을 활용하여 임신 중 자간전증의 발병 및 중증도를 예측할 수 있다. 일부 실시형태에서, 혈장 DNA 분자의 크기 프로파일을 분석함으로써 전자간증의 진행 및 간 및 신장 손상을 포함하지만 이들로 제한되지 않는 심각한 자간전증 특징의 발달을 모니터링할 수 있다. 일부 실시형태에서, 분석에 사용된 크기 매개변수는 짧은 DNA 분자 또는 긴 DNA 분자의 비율 및 짧은 DNA 분자 및 긴 DNA 분자의 상대적인 비율을 나타내는 크기 비율을 포함할 수 있지만 이들로 제한되지 않는다. 짧은 DNA 범주 및 긴 DNA 범주를 결정하는 데 사용되는 컷오프는 150 bp, 180 bp, 200 bp, 250 bp, 300 bp, 350 bp, 400 bp, 450 bp, 500 bp, 550 bp, 600 bp, 650 bp, 700 bp, 750 bp, 800 bp, 850 bp, 900 bp, 950 bp, 1 kb 등을 포함할 수 있지만 이들로 제한되지 않는다. 짧은 분자와 긴 분자의 크기 비율을 결정하는 데 사용되는 크기 범위는 50 내지 150 bp, 50 내지 166 bp, 50 내지 200 bp, 200 내지 400 bp, 200 내지 1000 bp, 200 내지 5000 bp 또는 다른 조합을 포함할 수 있지만, 이들로 제한되지 않는다.

크기 단부 분석은 도 61의 방법(6100)에 기재된 방법을 사용하는 것을 포함할 수 있다.

B. 단편 단부 분석

단편 단부 분석을 본 개시내용의 실시형태에 따른 자간전증 및 정상혈압 제3 삼분기 모 혈장 샘플에 대해 수행하였다. 각각의 시퀀싱된 혈장 DNA 분자에 대해 Watson 및 Crick 가닥 둘 다의 5' 단부에 있는 첫 번째 뉴클레오타이드를 결정하였다. T-단부, C-단부, A-단부 및 G-단부 단편의 비율을 각각의 혈장 DNA 샘플에 대해 결정하였다.

도 72a 내지 도 72d는 PacBio SMRT 시퀀싱으로 시퀀싱된 자간전증 및 정상혈압 모 혈장 샘플에서 혈장 DNA 분자의 상이한 단부의 비율의 그래프를 나타낸다. x축은 정상 제3 삼분기 및 PET 샘플을 나타낸다. y축은 주어진 단부의 비율을 나타낸다. 도 72a는 T-단부의 비율을 나타낸다. 도 72b는 C-단부의 비율을 나타낸다. 도 72c는 A-단부의 비율을 나타낸다. 도 72d는 G-단부의 비율을 나타낸다. 자간전증 혈장 샘플 군은 정상혈압 대조군 혈장 샘플 군과 비교할 때 T-단부 혈장 DNA 분자의 비율이 유의미하게 증가하였고(P = 0.016, 윌콕슨 순위합 검정), G-단부혈장 DNA 분자의 비율이 유의미하게 감소하였다(P = 0.016, 윌콕슨 순위합 검정).

도 73은 4가지 유형의 단편 단부(각각의 가닥의 5' 단부에서 첫 번째 뉴클레오타이드), 즉, C-단부, G-단부, T-단부 및 A-단부를 사용한 자간전증 및 정상혈압 제3 삼분기 모 혈장 DNA 샘플의 계층적 클러스터링 분석을 나타낸다. 각각의 열은 혈장 DNA 샘플을 나타낸다. 제1 행은 각각의 샘플이 속한 군을 나타내며, 청록색은 정상혈압의 제3 삼분기 모 혈장 DNA 샘플을 나타내고, 주황색은 자간전증 혈장 DNA 샘플을 나타낸다. 청록색은 처음 5개 열을 포함한다. 주황색은 마지막 4개 열을 포함한다.

제2 행에서부터 시작하여, 각각의 행은 단편 단부의 유형을 나타낸다. 단부 모티프 빈도는 행-정규화 빈도(z-점수)(즉, 샘플 전체의 평균 빈도 미만 또는 초과의 표준 편차 수)에 따라 일련의 색상 구배로 표시되었다. 적색이 진할수록 단부 모티프의 빈도가 높다는 것을 나타내고, 청색이 진할수록 단부 모티프의 빈도가 낮음을 나타낸다. 4가지 유형의 단편 단부의 빈도를 기반으로 한 계층적 클러스터링 분석은 자간전증 혈장 DNA 샘플의 단편 단부 프로파일이 정상혈압 제3 삼분기 혈장 DNA 샘플의 것과 구별되는 클러스터를 형성함을 보여주었다.

실시형태에서, 각각의 시퀀싱된 DNA 분자에 대해 개별적으로 Watson 및 Crick 가닥 둘 다의 5' 단부에서 첫 번째(X) 및 두 번째 뉴클레오타이드(Y)의 디뉴클레오타이드 서열을 결정할 수 있다. X 및 Y는 DNA의 4개 염기 중 하나일 수 있다. 16개의 가능한 2-뉴클레오타이드 단부 모티프 AANN, ATNN, AGNN, ACNN, TANN, TTNN, TGNN, TCNN, GANN, GTNN, GGNN, GCNN, CANN, CTNN, CGNN 및 CCNN이 존재한다. 본 개시내용의 실시형태에 따라 각각의 시퀀싱된 DNA 분자에 대해 개별적으로 Watson 및 Crick 가닥 모두의 5' 단부에서 세 번째(X) 및 네 번째 뉴클레오타이드(Y)의 디뉴클레오타이드 서열을 결정할 수 있다. 16개의 가능한 2-뉴클레오타이드 NNXY 모티프가 존재한다. 또한 각각의 시퀀싱된 DNA 분자에 대해 개별적으로 Watson 및 Crick 가닥 둘 다의 5' 단부에서 첫 번째 4-뉴클레오타이드 서열(사량체 모티프)을 결정할 수 있다.

도 74는 16개의 2-뉴클레오타이드 모티프 XYNN(5' 단부로부터의 첫 번째 및 두 번째 뉴클레오타이드의 디뉴클레오타이드 서열)을 사용한 자간전증 및 정상 혈압 제3 삼분기 모 혈장 DNA 샘플의 계층적 클러스터링 분석을 나타낸다. 도 75는 16개의 2-뉴클레오타이드 모티프 NNXY(5' 단부로부터의 세 번째 및 네 번째 뉴클레오타이드의 디뉴클레오타이드 서열)을 사용한 자간전증 및 정상 혈압 제3 삼분기 모 혈장 DNA 샘플의 계층적 클러스터링 분석을 나타낸다. 도 76은 256개의 4-뉴클레오타이드 모티프(5' 단부로부터의 첫 번째 내지 네 번째 뉴클레오타이드의 디뉴클레오타이드 서열)을 사용한 자간전증 및 정상 혈압 제3 삼분기 모 혈장 DNA 샘플의 계층적 클러스터링 분석을 나타낸다.

도 74 내지 도 76에서, 제1 행은 각각의 샘플이 속한 군을 나타내며, 청록색은 정상혈압의 제3 삼분기 모 혈장 DNA 샘플을 나타내고, 주황색은 자간전증 혈장 DNA 샘플을 나타낸다. 청록색은 처음 5개 열을 포함한다. 주황색은 마지막 4개 열을 포함한다. 제2 행에서부터 시작하여, 각각의 행은 단편 단부의 유형을 나타낸다. 단부 모티프 빈도는 행-정규화 빈도(z-점수)(즉, 샘플 전체의 평균 빈도 미만 또는 초과의 표준 편차 수)에 따라 일련의 색상 구배로 표시되었다. 적색이 진할수록 단부 모티프의 빈도가 높다는 것을 나타내고, 청색이 진할수록 단부 모티프의 빈도가 낮음을 나타낸다.

이러한 결과는 자간전증 및 비-자간전증 샘플의 혈장 DNA가 서로 다른 단편화 특성을 가지고 있음을 시사하였다. 일 실시형태에서 PacBio SMRT 시퀀싱 및 Oxford Nanopore 시퀀싱을 포함하지만 이들로 제한되지 않는 긴-판독물 시퀀싱 플랫폼으로부터 생성된 단부 모티프 프로파일을 활용하여 임신 중 자간전증의 발병 및 중증도를 예측할 수 있다. 상기 분석에서는 1-뉴클레오타이드, 2-뉴클레오타이드 및 4-뉴클레오타이드 모티프가 사용되지만 다른 길이의 모티프, 예를 들어 3, 5, 6, 7, 8, 9, 10 또는 그 초과가 다른 실시형태에서 사용하였다.

일부 실시형태에서, 단편 단부 분석 및 기원 조직 분석을 조합하여 자간전증을 포함하지만 이들로 제한되지 않는 임신-연관 병태의 예측, 검출 및 모니터링의 성능을 개선할 수 있다. 첫째, 각각의 모 혈장 샘플에 대한 단편 단부 분석을 수행하여 혈장 DNA 분자를 4개의 단편 단부 범주, 즉 T-단부, C-단부, A-단부 및 G-단부 단편으로 분리할 수 있다. 그 다음, 본 개시내용의 실시형태에 따른 메틸화 상태 일치 분석을 사용하여 각각의 모 혈장 DNA 샘플에 대한 각각의 단편 단부 범주로부터의 혈장 DNA 분자를 사용하여 기원 조직 분석을 개별적으로 수행할 수 있다. 단편 단부 범주 중 하나에서 다른 조직의 비례 기여도는 다른 조직에 비해 해당 조직에 할당된 해당 단편 단부 범주의 혈장 DNA 분자의 백분율로 정의되었다.

본 발명자들은 단일 분자 실시간 시퀀싱을 사용하여 자간전증이 있거나 없는 임산부의 혈장 DNA 샘플 3개 및 5개를 분석하였다. 본 발명자들은 A-단부, C-단부, G-단부 및 T-단부를 갖는 658,722, 889,900, 851,501 및 607,554개의 혈장 단편의 중간값을 얻었다. A-단부를 갖는 단편의 경우, 본 개시내용에 기재된 메틸화 상태 일치 접근법에 따라 호중구, T 세포, B 세포, 간 및 태반의 참조 메틸화 프로파일과 적어도 10개의 CpG 부위를 갖는 임의의 단편의 메틸화 패턴을 비교하였다. 혈장 DNA 단편은 조직 중에서 메틸화 상태 일치의 최대 점수에 상응하는 조직에 할당될 것이다. 이 방법을 사용하여, A-단부 단편의 중간값 2.43%(범위: 0.73 내지 5.50%)가 분석될 모든 샘플 중의 T 세포(즉, T 세포 기여도)에 할당되었다. 본 발명자들은 유사한 방식으로 각각 C-단부, G-단부 및 T-단부가 있는 단편을 추가로 분석하였다. C-단부, G-단부 및 T-단부가 있는 단편에 대해 3.20%(범위: 1.55 내지 5.19%), 3.52%(범위: 1.53 내지 6.27%) 및 2.22%(0 내지 7.79%)의 중간 T 세포 기여도가 관찰되었다.

도 77a 내지 도 77d는 자간전증 및 정상혈압 모 혈장 DNA 샘플에서 다양한 단편 단부 범주, 즉, (a) T-단부, (b) C-단부, (c) A-단부 및 (d) G-단부에 속하는 DNA 분자 중에서 T 세포 기여도를 나타낸다. x축은 정상 제3 삼분기 및 PET 샘플을 나타낸다. y축은 T 세포 기여도를 백분율로 나타낸다. 결과는 G-단부 단편 중에서 T 세포 기여도 정상혈압 제3 삼분기 혈장 샘플과 비교하여 자간전증 혈장 샘플에서 유의미하게 감소되었음을 나타내었다(P = 0.036, 윌콕슨 순위합 검정). 실시형태에서, 임신이 자간전증 발병의 낮은 위험에 있는지 높은 위험에 있는지 여부를 결정하기 위해 모 혈장 DNA 샘플의 모든 G-단부 단편 중에서 T 세포 기여도에 대해 3%의 컷오프를 사용할 수 있다.

C. 예시적인 방법

도 78은 태아를 임신한 여성으로부터 얻은 생물학적 샘플의 분석 방법(7800)을 나타낸다. 생물학적 샘플은 태아 및 여성으로부터의 복수의 세포유리 DNA 분자를 포함할 수 있다. 이 방법은 임신-연관 장애의 우도의 분류를 생성할 수 있다. 임신-연관 장애는 본원에 기재된 자간전증 또는 임의의 임신-연관 장애일 수 있다.

복수의 세포유리 DNA 분자에 상응하는 서열 판독물을 제공받을 수 있다.

블록 7810에서, 복수의 세포유리 DNA 분자의 크기가 측정될 수 있다. 크기는 도 21을 포함하여 본원에 기재된 임의의 기술 또는 뉴클레오타이드의 수를 계수하거나 정렬을 통해 측정될 수 있다.

블록 7820에서, 컷오프 값보다 큰 크기를 갖는 세포유리 DNA 분자의 세트가 식별될 수 있다. 컷오프 값은 500 nt, 600 nt, 700 nt, 800 nt, 900 nt, 1 knt, 1.1 knt, 1.2 knt, 1.3 knt, 1.4 knt, 1.5 knt, 1.6 knt, 1.7 knt, 1.8 knt, 1.9 knt 또는 2 knt를 포함하는, 긴 세포유리 단편에 대한 임의의 컷오프 값일 수 있다. 컷오프 값은 긴 세포유리 DNA 분자에 대해 본원에 기재된 임의의 컷오프 값일 수 있다.

블록 7830에서, 제1 양을 사용하여 단부 모티프 매개변수의 값이 생성될 수 있다. 세트 내의 세포유리 DNA 분자의 하나 이상의 단부에 제1 하위서열을 갖는 세트 내의 세포유리 DNA 분자의 제1 양이 측정될 수 있다. 일부 실시형태에서, 단부 모티프 매개변수는 단부에서 모든 하위서열의 총량에 의해 정규화된 제1 양일 수 있다. 일부 실시형태에서, 단부는 3' 단부일 수 있다. 일부 실시형태에서, 단부는 5' 단부일 수 있다.

제1 하위서열은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개 또는 그 초과의 뉴클레오타이드 길이일 수 있다. 제1 하위서열은 각각의 세포유리 DNA 분자의 단부에 있는 마지막 뉴클레오타이드를 포함할 수 있다. 예를 들어, 제1 하위서열은 도 74에 도시된 XYNN 패턴일 수 있다. 일부 실시형태에서, 제1 하위서열은 각각의 세포유리 DNA 분자의 단부에 마지막 뉴클레오타이드 또는 뉴클레오타이드들을 포함하지 않을 수 있다. 예를 들어, 제1 하위서열은 도 75의 NNXY 패턴을 포함할 수 있다.

세포유리 DNA 분자의 하나 이상의 단부에서 제1 하위서열과 상이한 하위서열을 갖는 세포유리 DNA 분자의 제2 양이 측정될 수 있다. 단부 모티프 매개변수의 값은 제2 양과 제3 양의 비율을 이용하여 생성될 수 있다. 예를 들어, 제2 양을 제3 양으로 나누거나 제3 양을 제2 양으로 나눌 수 있다.

블록 7840에서, 단부 모티프 매개변수의 값은 역치 값과 비교될 수 있다. 역치 값은 임신-연관 장애가 없는 대상체에 대한 관련 매개변수의 값과 통계적으로 유의미한 차이를 나타내는 값일 수 있다. 역치 값은 정상 임신을 한 1명 이상의 참조 대상체 또는 임신-연관 장애가 있는 1명 이상의 참조 대상체에서 결정될 수 있다.

일부 실시형태에서, 단부 모티프 매개변수의 값은 역치 값과 비교될 수 있고, 제2 단부 모티프 매개변수의 값은 제2 역치 값과 비교될 수 있다. 세포유리 DNA 분자의 하나 이상의 단부에서 제1 하위서열과 상이한 제2 하위서열을 갖는 세포유리 DNA 분자의 제2 양이 측정될 수 있다. 따라서 상이한 단부 모티프의 양이 결정될 수 있다. 제2 양을 사용한 제2 단부 모티프 매개변수의 값이 생성될 수 있다. 제2 단부 모티프 매개변수의 값은 제2 역치 값과 비교될 수 있다. 제2 역치 값은 제1 역치 값과 동일하거나 상이할 수 있다. 추가 하위서열은 제1 하위서열 및 제2 하위서열과 동일한 방식으로 사용될 수 있다. 일부 실시형태에서, 모든 가능한 하위서열은 역치 값과의 비교를 위해 사용될 수 있다.

블록 7850에서, 임신-연관 장애의 우도의 분류는 비교를 사용하여 결정될 수 있다. 임신-연관 장애는 크기 매개변수의 값 또는 단부 모티프 매개변수의 값이 역치 값을 초과할 때 발생할 수 있다.

일부 실시형태에서, 임신-연관 장애의 우도의 분류를 결정하는 것은 제2 단부 모티프 매개변수의 값과 제2 컷오프 값의 비교를 사용할 수 있다. 임신-연관 장애는 제1 단부 모티프 매개변수의 값이 첫 번째 역치 값을 초과하고 제2 단부 모티프 매개변수의 값이 두 번째 역치 값을 초과할 때 발생할 수 있다.

방법은 단부 모티프 매개변수에 추가하여 크기 매개변수를 사용하는 단계를 포함할 수 있다. 제1 크기 범위의 크기를 갖는 세포유리 DNA 분자의 제2 세트가 식별될 수 있다. 제1 크기 범위는 컷오프 값보다 큰 크기를 포함할 수 있다. 제1 크기 범위는 컷오프 값보다 클 수 있는 크기를 포함한다. 제1 크기 범위는 550 nt, 600 nt, 650 nt, 700 nt, 750 nt, 800 nt, 850 nt, 900 nt, 950 nt, 1 nt, 1.5 knt, 2 knt, 3 knt, 5 knt 또는 그 초과보다 작을 수 있다. 제2 세트에서 세포유리 DNA 분자의 제2 양을 사용하여 크기 매개변수의 값이 생성될 수 있다. 크기 매개변수의 값은 제2 역치 값과 비교될 수 있다. 임신-연관 장애의 우도의 분류를 결정하는 단계는 크기 매개변수의 값과 제2 역치 값의 비교를 사용할 수 있다. 분류는 제1 역치 값 및 제2 역치 값 중 하나 또는 둘 다를 초과할 때 임신-연관 장애가 있을 가능성이 있다.

크기 매개변수는 정규화된 매개변수일 수 있다. 예를 들어, 제2 크기 범위에서 세포유리 DNA 분자의 제3 양이 측정될 수 있다. 제2 크기 범위는 제1 컷오프 값보다 작은 크기를 포함할 수 있다. 제2 크기 범위는 모든 크기를 포함할 수 있다. 제2 크기 범위는 50 내지 150 nt, 50 내지 166 nt, 50 내지 200 nt, 200 내지 400 nt를 포함할 수 있다. 제2 크기 범위는 본원에 기재된 짧은 세포유리 DNA 단편에 대한 임의의 크기를 포함할 수 있다. 제2 크기 범위는 제1 크기 범위의 크기를 제외할 수 있다. 크기 매개변수의 값은 제2 양과 제3 양의 비율을 결정함으로써 생성될 수 있다. 예를 들어, 제2 양을 제3 양으로 나누거나 제3 양을 제2 양으로 나눌 수 있다.

세포유리 DNA 분자의 양 중 임의의 것은 특정 기원 조직의 세포유리 DNA 분자일 수 있다. 예를 들어, 기원 조직은 T 세포 또는 본원에 기재된 다른 기원 조직일 수 있다. 제2 양은 도 77a 내지 도 77d에서 기재된 T 세포 기여도와 유사할 수 있다. 기원 조직으로부터의 기여도는 본 개시내용에 기재된 바와 같은 메틸화 상태 또는 패턴을 사용하여 결정될 수 있다.

V. 반복부 확장 관련 질환

임산부로부터 얻은 긴 세포유리 DNA 단편을 사용하여 유전자의 반복부 확장을 식별할 수 있다. 유전자 내의 반복부의 확장은 신경근 질환을 유발할 수 있다. 탠덤 반복부의 확장은 신경퇴행성 장애, 예컨대, 취약 X 증후군, 헌팅턴병 및 척수소뇌 실조증을 포함하지만 이들로 제한되지 않는 인간 질환과 연관되어 있다. 이러한 탠덤 반복부 확장은 유전자의 단백질 암호 영역(마차도-조셉병, 호 리버 증후군, 헌팅턴병) 또는 비암호 영역(프리드라이히 운동실조증, 근긴장성 이영양증, 일부 형태의 취약 X 증후군)에서 발생할 수 있다. 미니부수체, 펜타뉴클레오타이드, 테트라뉴클레오타이드 및 수많은 트리뉴클레오타이드 반복을 포함하는 확장은 취약한 부위와 연관되어 있다. 이러한 질환과 연관된 확장은 복제 미끄러짐 또는 비대칭 재조합 또는 후성적 이상으로 인해 발생할 수 있다. 서열 내의 반복부의 수는 하위서열이 나타나는 총 횟수를 나타낸다. 예를 들어, "CAGCAG"에는 2개의 반복부를 포함한다. 반복부는 하위서열의 적어도 2개의 인스턴스를 포함하기 때문에, 반복의 수는 1이 될 수 없다. 하위서열은 반복 단위로 이해될 수 있다.

실시형태에서, 임산부의 긴 세포유리 DNA 분석은 반복부 연관 질환의 검출을 용이하게 할 수 있다. 예를 들어, 트리뉴클레오타이드 반복부는 DNA 서열에서 3-bp 모티프의 반복적인 스트레치를 나타낸다. 일례는 'CAGCAGCAG' 서열이 3개의 3 bp 'CAG' 모티프를 포함하는 것이다. 미세부수체의 확장, 전형적으로 트리뉴클레오타이드 반복부 확장은 신경 장애에서 중요한 역할을 하는 것으로 보고되어 있다(문헌[Kovtun et al. Cell Res. 2008;18:198-213; McMurray et al. Nat Rev Genet. 2010;11:786-99]). 일례는 ATXN3 유전자에서 55개 초과의 CAG 반복부(총 165 bp)가 병원성이어서 운동의 진행 문제를 특징으로 하는 척수소뇌 실조증 타입 3(SCA3) 질환을 유발한다는 것이다. 이 병태는 상염색체 우성 패턴으로 유전된다. 따라서 변형된 유전자의 카피 하나만으로도 장애를 유발하기에 충분하다. 미세부수체의 반복부 수를 결정하기 위해, 중합효소 연쇄 반응(PCR)을 전형적으로 사용하여 관심 게놈 영역을 증폭하고, 그 다음 PCR 산물을 다수의 상이한 기술, 예컨대, 모세관 전기영동(문헌[Lyon et al. J Mol Diagn. 2010;12:505-11]), 서던 블롯 분석(문헌[Hsiao et al. J Clin Lab Anal. 1999;13:188-93]), 용융 곡선 분석(문헌[Lim et al. J Mol Diagn. 2014;17:302-14]) 및 질량 분석법(문헌[Zhang et al. Anal Methods. 2016;8:5039-44])에 적용한다. 그러나 이러한 방법은 노동 집약적이고, 시간 소모적이고, 산전 검사와 같은 실제 임상 실습에서 고처리량 스크리닝에 적용하기 어려웠다. Sanger 시퀀싱은 수동 검사를 통해 복잡한 서열 추적에서 긴 반복부를 추론하는 데 상당한 어려움이 있다. Illumina 시퀀싱 기술 및 Ion Torrent는 이러한 반복부를 보유하는 GC-풍부(또는 GC-부족) 영역을 시퀀싱하는 데 상당한 어려움이 있다고 널리 공지되어 있고(문헌[Ashely et al. 2016;17:507-22]), 확장된 반복부를 포함하는 DNA의 길이는 쉽게 서열 판독물의 길이를 쉽게 초과한다(문헌[Loomis et al. Genome Res. 2013;23:121-8]).

또 다른 예는 DMPK 유전자 근처에 있는 50 내지 4000개 CTG 반복부 범위의 CTG 반복부의 확장에 의해 유발되는 근긴장성 이영양증 및 또한 상염색체 우성 장애이다. DM의 분자 진단은 태아 게놈 DNA의 CTG 번호를 침습적 방식으로 분석하여 산전 진단에서 일상적으로 수행된다.

짧은-판독물 시퀀싱(수백개의 염기)과 대조적으로, 본 개시내용에 기재된 방법은 모 혈장 DNA(다수의 킬로염기)로부터 긴 DNA 분자를 얻을 수 있다. 본 개시내용에 기재된 방법을 사용하여, 태아가 영향을 받은 산모로부터 이 질환을 유전하는지 여부를 비침습적 방식으로 결정할 수 있다.

도 79는 반복부-연관 질환에 대한 태아의 모계 유전을 추론하는 예시를 나타낸다. 단계 7905에서, 임신 중 세포유리 DNA는 단일 분자 실시간(예를 들어, PacBio SMRT) 시퀀싱되었다. 단계 7910에서, 시퀀싱된 결과는 본 개시내용에 따라 길고 짧은 DNA 범주로 분할되었다. 단계 7915에서, 긴 DNA 분자에 존재하는 대립형질 정보는 모 일배체형, 즉 Hap I 및 Hap II를 구성하는 데 사용될 수 있다. Hap I 및 Hap II는 각각 트리뉴클레오타이드 하위서열(예를 들어, CTG)의 확장된 반복부를 포함할 수 있다. 단계 7920에서, 일배체형의 불균형이 도 16에 기재된 것과 유사하게 분석될 수 있다. 단계 7925에서 태아의 모계 유전이 추론될 수 있다. 본원에 기재된 방법을 통해 본 발명자들은 일배체형(예를 들어, Hap I 및 Hap II)을 결정할 뿐만 아니라 본 개시내용에 따른 긴 DNA 분자의 서열 정보를 사용하여 장애를 유발하는 확장된 반복부(예를 들어, 영향을 받은 Hap I)이 있는 일배체형을 결정할 수 있다. 본원에 기재된 방법에 따라 모 Hap I 및 Hap II에 걸쳐 분포하는 짧은 DNA 분자의 수, 크기 또는 메틸화 상태를 사용하여 태아가 이 예에서 모 Hap I(영향받음) 또는 Hap II(영향받지 않음)를 유전하는지 여부를 결정할 수 있다.

도 80은 반복부-연관 질환에 대한 태아의 부계 유전을 추론하는 예시를 나타낸다. 임신 중에 세포유리 DNA를 사용하여 태아가 영향을 받은 부계 일배체형을 유전하는지 여부를 결정할 수 있다. 도 80에 도시된 바와 같이, 남편이 반복부 확장 질환(예를 들어, 70 CTG 반복부)에 의해 영향을 받은 영향을 받지 않은 여성의 임신에서 세포유리 DNA(예를 들어, Hap I의 경우 5개의 CTG 반복부 및 Hap II의 경우 6개의 CTG 반복부)에 PacBio SMRT 시퀀싱을 적용하였고, 시퀀싱된 긴 DNA 분자를 식별하고 일배체형 및 반복부 수를 결정하는 데 사용하였다. 긴 스트레치의 CTG 반복부를 보유하는 A 일배체형(예를 들어, 이 예에서 70개의 CTG 반복)이 영향을 받지 않은 임산부의 모 혈장에 존재하는 경우, 태아가 영향을 받은 부계 일배체형을 유전하였음을 시사한다. 일부 실시형태에서, 확장된 반복부를 함유하는 DNA는 또한 모 게놈에 존재하지 않는 하나 이상의 다른 부계 특이적 대립형질을 보유한다. 이 상황은 부계 유전을 확인하는 데 유용하다.

또 다른 실시형태에서, 임신 중에 세포유리 DNA를 사용하여 태아가 영향을 받은 부계 일배체형을 유전하는지 여부를 결정할 수 있다. 도 80에 도시된 바와 같이, 남편이 반복부 확장 질환(예를 들어, 70 CTG 반복부)에 의해 영향을 받은 영향을 받지 않은 여성의 임신에서 세포유리 DNA(예를 들어, Hap I의 경우 5개의 CTG 반복부 및 Hap II의 경우 6개의 CTG 반복부)에 PacBio SMRT 시퀀싱을 적용하였고, 시퀀싱된 긴 DNA 분자를 식별하고 일배체형 및 반복부 수를 결정하는 데 사용하였다. 긴 스트레치의 CTG 반복부를 보유하는 A 일배체형(예를 들어, 이 예에서 70개의 CTG 반복)이 영향을 받지 않은 임산부의 모 혈장에 존재하는 경우, 태아가 영향을 받은 부계 일배체형을 유전하였음을 시사한다. 일부 실시형태에서, 확장된 반복부를 함유하는 DNA는 또한 모 게놈에 존재하지 않는 하나 이상의 다른 부계 특이적 대립형질을 보유한다. 이 상황은 부계 유전을 확인하는 데 유용하다.

도 81, 도 82 및 도 83은 반복 확장 질환의 예를 나타낸 표이다. 제1 열은 반복부 확장 관련 질환을 나타낸다. 제2 열은 반복부 하위서열을 나타낸다. 제3 열은 정상 대상체에서 반복부의 수를 나타낸다. 제4 열은 질환에 걸린 대상체의 반복부의 수를 나타낸다. 제5 열은 반복부와 관련된 유전적 위치를 나타낸다. 제6 열은 유전자 명칭을 열거한다. 제7 열은 유전 패턴을 열거한다. 이 표는 omicslab.genetics.ac.cn/dred/index.php에서 유래한다.

A. 반복부 확장 검출에 대한 예

부계 유전 확장 CAG 반복부는 3130XL Genetic Analyzer에 대한 PCR 및 후속 단편 분석에 의한 직접 접근법을 사용하여 모 혈장에서 검출될 수 있다고 보고되어 있다(문헌[Oever et al. Prenat Diagn. 2015;35:945-9]). 헌팅턴병에 대한 비침습적 산전 검사는 확장된 대립형질의 크기가 35개 초과의 트리뉴클레오타이드 반복부[즉, 반복부에 걸쳐 있는 길이가 105 bp(35 × 3) 또는 그 초과인 DNA 영역]에서만 시작하기 때문에 PCR로 달성할 수 있었다. 특히 대부분의 트리뉴클레오타이드 반복부 장애(문헌[Orr et al. Annu. Rev. Neurosci. 2007;30:575-621])에 대한 많은 확장된 반복부는 이전 보고서에 문서화된 짧은 태아 DNA 분자의 크기를 넘어 길이가 300 bp 이상인 반복부와 관련될 것이다. 확장된 반복부가 큰 DNA는 PCR의 어려움을 유발할 것이다(문헌[Orr et al. Annu. Rev. Neurosci. 2007;30:575-621]). 외버(Oever) 등의 연구에서 제안한 바와 같이, 긴 CAG 반복부의 신호 강도는 보통 작은 반복부의 신호에 비해 훨씬 낮으며, 이러한 현상은 게놈 DNA와 혈장 DNA 모두에서 관찰되어, 긴 CAG 반복부를 검출하는 데 있어서 더 낮은 감도로 이어진다(문헌[Oever et al. Prenat Diagn. 2015;35:945-9]). PCR의 또 다른 한계는 메틸화 신호가 증폭 중에 보존될 수 없다는 것이다. 일 실시형태에서, 긴 DNA 분자의 단일 분자 실시간 시퀀싱은 탠덤 반복부 다형성 및 하나 이상의 영역에 걸친 이들의 연관된 메틸화 수준의 결정을 허용할 것이다.

도 84는 태아의 반복 확장 검출 및 반복부-연관 메틸화 결정에 대한 예를 나타내는 표이다. 제1 열은 염기쌍 수로 반복부 유형을 나타낸다. 제2 열은 반복부 단위를 나타낸다. 제3 열은 게놈 위치를 나타낸다. 제4 열은 참조 염기, 인간 참조 게놈에 존재하는 서열을 나타낸다. 제5 열은 부 유전자형을 나타낸다. 제6 열은 모 유전자형을 나타낸다. 제7 열은 태아의 유전자형을 나타낸다. 제8 열은 부 대립형질과 관련된 태아 DNA 메틸화 수준을 나타낸다. 제9 열은 모 대립형질과 관련된 태아 DNA 메틸화 수준을 나타낸다.

도 84는 1-bp, 2-bp, 3-bp 및 4-bp 탠덤 반복부의 다수의 예를 나타낸다. 예를 들어, chr3:192384705-192384706의 게놈 위치에서, "GATA" 탠덤 반복부가 식별되었다. 이 유전자좌에 있는 아버지의 유전자형은 T(GATA)₃/T(GATA)₅였고, 대립형질 1은 3개의 반복 단위를 갖고 대립형질 2는 5개의 반복 단위를 가졌다. 참조 대립형질 T(GATA)₃과 비교하여, 부계 대립형질 2는 반복부 확장과 관련된 유전적 사건을 시사하였다. 이 유전자좌에서 어머니의 유전자형은 T/T였으며, 이는 반복부 수축을 포함하는 유전적 사건을 나타내었다. 이 유전자좌의 태아 유전자형은 T(GATA)₅/T였으며, 이는 태아가 부계 대립형질 2(즉, T(GATA)₅)와 모 대립형질 T를 유전하였음을 시사한다. 부계 대립형질 및 모 대립형질과 관련된 메틸화 수준은 각각 50.98 및 62.8이었다. 이러한 결과는 탠덤 반복부 다형성의 사용이 태아의 모계 및 부계 유전을 결정할 수 있음을 시사하였다. 이 기술을 통해 두 대립형질과 관련된 서로 다른 메틸화 패턴을 식별할 수 있다. 또 다른 예는 chr4:73237157-73237158의 게놈 위치에서 태아가 어머니로부터 반복부 확장[(TAAA)₃]을 유전하였다는 것을 나타낸다. 모계로부터 유전된 반복부 확장을 함유하는 태아 분자는 부계 대립형질을 함유하는 태아 분자(62.84%)에 비해 더 높은 메틸화 수준(95.65%)을 나타냈다. 이 데이터는 반복부, 반복부 구조 및 관련 메틸화 변화를 검출할 수 있음을 시사하였다. 일 실시형태에서, 모계 유전과 부계 유전 간의 메틸화 차이가 유의미한지를 결정하기 위해서 특정 컷오프를 사용할 수 있다. 컷오프는 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85% 또는 90% 등을 포함하지만 이들로 제한되지 않는 것보다 더 큰 메틸화 수준의 절대 차이일 것이다. 모계 유전의 결정은 도 21의 방법(2100)에 기재된 방법과 유사할 수 있다.

B. 예시적인 방법

하위서열 반복부를 사용하여 태아의 정보를 결정할 수 있다. 예를 들어, 하위서열 반복부의 존재를 사용하여 분자가 태아 기원임을 결정할 수 있다. 또한 하위서열 반복부는 유전적 장애의 우도를 나타낼 수 있다. 하위서열 반복부를 사용하여 모계 및/또는 부계 일배체형의 유전을 결정할 수 있다. 또한, 하위서열 반복부를 사용하여 태아의 친자관계를 결정할 수 있다.

1. 하위서열 반복부를 사용한 태아 기원 분석

도 85는 태아를 임신한 여성으로부터 얻은 생물학적 샘플을 분석하는 방법(8500)을 도시하고, 생물학적 샘플은 태아 및 여성으로부터의 세포유리 DNA 분자를 포함한다. 태아에서 유전적 장애의 우도를 결정할 수 있다.

블록 8510에서, 세포유리 DNA 분자의 세포유리 DNA 분자에 상응하는 제1 서열 판독물을 제공받을 수 있다. 세포유리 DNA 분자는 컷오프 값보다 큰 길이를 가질 수 있다. 컷오프 값은 200 nt 이상일 수 있다. 컷오프 값은 600 nt, 700 nt, 800 nt, 900 nt, 1 knt, 1.1 knt, 1.2 knt, 1.3 knt, 1.4 knt, 1.5 knt, 1.6 knt, 1.7 knt, 1.8 knt, 1.9 knt 또는 2 knt를 포함하여 적어도 500 nt일 수 있다. 컷오프 값은 긴 세포유리 DNA 분자에 대해 본원에 기재된 임의의 컷오프 값일 수 있다.

단계 8520에서, 제1 서열 판독물은 참조 게놈의 영역에 정렬될 수 있다. 영역은 잠재적으로 하위서열의 반복부를 포함하는 것으로 알려져 있다. 영역은 도 81 내지 도 83의 임의의 위치 또는 유전자에 대응할 수 있다. 하위서열은 본원에 기재된 임의의 것을 포함하는 트리뉴클레오타이드 서열일 수 있다.

블록 8530에서, 세포유리 DNA 분자에 상응하는 제1 서열 판독물 내의 하위서열의 다수의 반복부가 식별될 수 있다.

블록 8540에서, 하위서열의 반복부의 수가 역치 수와 비교될 수 있다. 역치 수는 55, 60, 75, 100, 150 또는 그 초과일 수 있다. 역치 수는 유전적 장애에 따라 다를 수 있다. 예를 들어, 역치는 질환에 걸린 대상에서 반복부의 최소 수, 정상 대상체에서 반복부의 최대 수, 또는 이 두 수 사이의 수를 반영할 수 있다(도 81 내지 도 83 참조).

블록 8550에서, 반복부의 수와 역치 수의 비교를 사용하여 태아가 유전적 장애를 가질 우도의 분류가 결정될 수 있다. 반복부의 수가 역치 수를 초과할 때 태아가 유전적 장애를 가질 가능성이 있다고 결정될 수 있다. 유전적 장애는 취약 X 증후군 또는 도 81 내지 도 83에 열거된 임의의 장애일 수 있다.

일부 실시형태에서, 방법은 각각이 잠재적으로 하위서열의 반복부를 갖는 것으로 알려진 여러 상이한 표적 유전자좌에 대한 분류를 반복하는 것을 포함할 수 있다. 세포유리 DNA 분자에 상응하는 복수의 서열 판독물이 제공될 수 있다. 복수의 서열 판독물은 참조 게놈의 복수의 영역에 정렬될 수 있다. 복수의 영역은 잠재적으로 하위서열의 반복부를 포함하는 것으로 알려져 있을 수 있다. 복수의 영역은 비중첩 영역일 수 있다. 복수의 영역 중 각각의 영역은 상이한 SNP를 가질 수 있다. 복수의 영역은 상이한 염색체 아암 또는 염색체로부터 유래될 수 있다. 복수의 영역은 참조 게놈의 적어도 0.01%, 0.1%, 또는 1%를 포함할 수 있다. 하위서열의 반복부의 수는 복수의 서열 판독물에서 식별될 수 있다. 하위서열의 반복부의 수는 복수의 역치 수와 비교될 수 있다. 각각의 역치 수는 상이한 유전적 장애의 존재 또는 우도를 나타낼 수 있다. 복수의 유전적 장애 각각의 경우, 복수의 역치 수의 역치 수와의 비교를 사용하여 태아가 각각의 유전적 장애를 가질 우도의 분류를 결정할 수 있다.

세포유리 DNA 분자는 태아 기원인 것으로 결정될 수 있다. 태아 기원의 결정은 임신 전 여성의 버피 코트 또는 샘플로부터 얻은 모체 기원의 세포유리 DNA 분자에 상응하는 제2 서열 판독물을 제공받는 단계를 포함할 수 있다. 제2 서열 판독물을 참조 게놈의 영역에 정렬될 수 있다. 하위서열의 제2 반복부의 수는 제2 서열 판독물에서 식별될 수 있다. 제2 반복부의 수는 제1 반복부의 수보다 낮다고 결정될 수 있다.

태아 기원의 결정은 세포유리 DNA 분자의 메틸화된 부위 및 메틸화되지 않은 부위를 사용하여 세포유리 DNA 분자의 메틸화 수준을 결정하는 단계를 포함할 수 있다. 메틸화 수준은 참조 수준과 비교될 수 있다. 방법은 메틸화 수준이 참조 수준을 초과하는지를 결정하는 단계를 포함할 수 있다. 메틸화 수준은 메틸화된 부위의 수 또는 비율일 수 있다.

태아 기원의 결정은 세포유리 분자의 복수 부위의 메틸화 패턴을 결정하는 것을 포함할 수 있다. 유사도 점수는 메틸화 패턴을 모 조직 또는 태아 조직으로부터의 참조 패턴과 비교함으로써 결정될 수 있다. 유사도 점수는 하나 이상의 역치 값과 비교될 수 있다. 유사도 점수는, 예를 들어 방법 4000으로 기재된 바와 같은 것을 포함하여, 본원에 설명된 바와 같은 임의의 유사도 점수일 수 있다.

2. 하위서열 반복부를 사용한 친자관계 분석

도 86은 태아를 임신한 여성으로부터 얻은 생물학적 샘플을 분석하는 방법(8600)을 도시하고, 생물학적 샘플은 태아 및 여성으로부터의 세포유리 DNA 분자를 포함한다. 생물학적 샘플을 분석하여 태아의 아버지를 결정할 수 있다.

블록 8610에서, 세포유리 DNA 분자의 세포유리 DNA 분자에 상응하는 제1 서열 판독물을 제공받을 수 있다. 이 방법은 세포유리 DNA 분자가 태아 기원이라는 것을 결정하는 단계를 포함할 수 있다. 세포유리 DNA 분자는, 예를 들어 방법 8500으로 설명된 바와 같은 것을 포함하여, 본원에 설명된 임의의 방법에 의해 태아 기원인 것으로 결정될 수 있다. 세포유리 DNA 분자는 컷오프 값보다 큰 크기를 가질 수 있다. 컷오프 값은 200 nt 이상일 수 있다. 컷오프 값은 600 nt, 700 nt, 800 nt, 900 nt, 1 knt, 1.1 knt, 1.2 knt, 1.3 knt, 1.4 knt, 1.5 knt, 1.6 knt, 1.7 knt, 1.8 knt, 1.9 knt 또는 2 knt를 포함하여 적어도 500 nt일 수 있다. 컷오프 값은 긴 세포유리 DNA 분자에 대해 본원에 기재된 임의의 컷오프 값일 수 있다.

블록 8620에서, 제1 서열 판독물은 참조 게놈의 제1 영역에 정렬될 수 있다. 제1 영역은 잠재적으로 하위서열의 반복부를 갖는 것으로 열려져 있을 수 있다.

블록 8630에서, 세포유리 DNA 분자에 상응하는 제1 서열 판독물 내의 제1 하위서열의 제1 반복부의 수가 식별될 수 있다. 제1 하위서열은 대립형질을 포함할 수 있다.

블록 8640에서, 남성 대상체로부터 얻은 서열 데이터를 분석하여 제1 하위서열의 제2 반복부의 수가 제1 영역에 존재하는지 여부를 결정할 수 있다. 제2 반복부의 수는 제1 하위서열의 적어도 2개의 인스턴스를 포함한다. 서열 데이터는 남성 대상체로부터 생물학적 샘플을 추출하고 생물학적 샘플의 DNA에 대한 시퀀싱을 수행하여 얻을 수 있다.

블록 8650에서, 제1 하위서열의 제2 반복부의 수가 존재하는지의 결정을 사용하여 대상체가 태아의 아버지일 우도의 분류를 결정할 수 있다. 분류는 제1 하위서열의 제2 반복부의 수가 존재하는 것으로 결정되는 경우 남성 대상체가 아버지일 가능성이 있다는 것일 수 있다. 분류는 제1 하위서열의 제2 반복부의 수가 존재하지 않는 것으로 결정되는 경우 남성 대상체가 아버지일 가능성이 없다는 것일 수 있다.

방법은 제1 반복부의 수를 제2 반복부의 수와 비교하는 단계를 포함할 수 있다. 남성 대상체가 아버지일 우도의 분류를 결정하는 것은 제1 반복부의 수와 제2 반복부의 수의 비교를 사용하는 것을 포함할 수 있다. 분류는 제1 반복부의 수가 제2 반복부의 수의 역치 값 이내인 경우 남성 대상체가 아버지일 가능성이 있을 수 있다. 역치 값은 제2 반복부의 수의 10%, 20%, 30% 또는 40% 이내일 수 있다.

방법은 반복부의 다중 영역을 사용하는 것을 포함할 수 있다. 예를 들어, 세포유리 DNA 분자는 제1 세포유리 DNA 분자이다. 방법은 세포유리 DNA 분자의 제2 세포유리 DNA 분자에 상응하는 제2 서열 판독물을 제공받는 단계를 포함할 수 있다. 방법은 또한 제2 서열 판독물을 참조 게놈의 제2 영역에 정렬하는 단계를 포함할 수 있다. 방법은 제2 세포유리 DNA 분자에 상응하는 제1 서열 판독물 내의 제2 하위서열의 제2 반복부의 수를 식별하는 단계를 추가로 포함할 수 있다. 방법은 남성 대상체로부터 얻은 서열 데이터를 분석하여 제2 하위서열의 제2 반복부의 수가 제2 영역에 존재하는지 여부를 결정하는 단계를 추가로 포함할 수 있다. 남성 대상체가 태아의 아버지일 우도의 분류를 결정하는 단계는 제2 하위서열의 제2 반복부의 수가 제2 영역에 존재하는지의 결정을 사용하는 것을 추가로 포함할 수 있다. 우도의 분류는 남성 대상체의 서열 데이터에서 제1 영역 및 제2 영역 둘 다에 반복부가 존재하는 경우 남성 대상체가 태아의 아버지일 우도가 높을 수 있다.

VI. 긴 혈장 DNA 분자의 농축을 위한 크기 선택

실시형태에서, 분석(예를 들어, 단일 분자 실시간 시퀀싱) 전에 하나 이상의 원하는 크기 범위를 갖는 DNA 분자를 물리적으로 선택할 수 있다. 예를 들어, 고체상 가역적 고정화 기술을 사용하여 크기 선택을 수행할 수 있다. 다른 실시형태에서, 크기 선택은 전기영동을 사용하여(예를 들어, Coastal Genomic 시스템 또는 Pippin 크기 선택 시스템을 사용하여) 수행될 수 있다. 본 발명자들의 접근 방식은 태아 DNA가 모 DNA보다 짧다는 당업계에 알려져 있기 때문에(문헌[Li et al. JAMA 2005; 293: 843-9]), 더 짧은 DNA에 주로 초점을 맞춘 이전 작업과 상이하다(문헌[Chan et al. Clin Chem 2004; 50: 88-92]).

크기 선택 기술은 본원에 기재된 임의의 방법과 본원에 기재된 임의의 크기에 적용될 수 있다. 예를 들어, 세포유리 DNA 분자는 전기영동, 자기 비드, 혼성화, 면역침전, 증폭 또는 CRISPR에 의해 농축될 수 있다. 결과적으로 농축된 샘플은 농축 전의 생물학적 샘플보다 더 큰 농도 또는 더 높은 비율의 특정 크기 단편을 가질 수 있다.

A. 전기영동을 사용한 크기 선택

실시형태에서, DNA 크기에 따른 DNA의 전기영동 이동도를 사용하여, 겔 전기영동 기반 접근법을 사용하여 원하는 크기 범위, 예를 들어 100 bp 이상, 200 bp 이상, 300 bp 이상, 400 bp 이상, 500 bp 이상, 600 bp 이상, 700 bp 이상, 800 bp 이상, 900 bp 이상, 1 kb 이상, 2 kb 이상, 3 kb 이상, 4 kb 이상, 5 kb 이상, 6 kb 이상, 7 kb 이상, 8 kb 이상, 9 kb 이상, 10 kb 이상, 20 kb 이상, 30 kb 이상, 40 kb 이상, 50 kb 이상, 60 kb 이상, 70 kb 이상, 80 kb 이상, 90 kb 이상, 100 kb 이상, 200 kb 이상 등(본원에 기재된 임의의 컷오프 초과 포함)를 갖는 목표 DNA 분자를 선택할 수 있다. 예를 들어, DNA 크기 선택을 위한 자동 겔 전기영동 시스템인 LightBench(Coastal Genomics)가 사용되었다. 원칙적으로 겔 전기영동 동안 짧은 DNA가 긴 DNA보다 더 빠르게 움직일 것이다. 본 발명자들은 500 bp보다 큰 DNA 분자를 선택하는 것을 목표로 이 크기 선택 기술을 하나의 혈장 DNA 샘플(M13190)에 적용하였다. 본 발명자들은 'In-Channel-Filter'(ICF) 수집 장치가 있는 3% 크기 선택 카세트와 크기 선택을 위해 내부 크기 마커가 있는 로딩 버퍼를 사용하였다. DNA 라이브러리를 겔에 로딩하고 전기영동을 시작하였다. 목표 크기에 도달하면 500 bp 미만의 제1 분획이 ICF에서 검색된다. 작동을 재개하고, 전기영동이 완료될 때까지 허용하여 500 bp 이상의 두 번째 분획을 얻었다. 단일 분자 실시간 시퀀싱(PacBio)을 사용하여 분자 크기가 500 bp 이상인 두 번째 분획을 시퀀싱하였다. 본 발명자들은 1,434개의 고품질 순환 공통 서열(CCS)(즉, 1,434개 분자)를 얻었다. 그 중 시퀀싱된 분자의 97.9%가 500 bp 초과였다. 500 bp보다 큰 DNA 분자의 이러한 비율은 크기 선택이 없는 대응물(10.6%)보다 훨씬 더 높았다. 이들 분자의 전체 메틸화는 75.5%로 결정되었다.

도 87은 (I) 분자 I 및 (II) 분자 II에서 크기 선택 후 2개의 대표적인 혈장 DNA 분자에 대한 메틸화 패턴을 나타낸다. 분자 I(chr21:40,881,731-40,882,812)은 1.1 kb 길이이고, 25개의 CpG 부위를 보유하였다. 분자 I의 단일 분자 메틸화 수준(즉, 메틸화된 부위의 수를 전체 부위의 수로 나눈 것)은 본 발명자들의 이전 개시내용(미국 출원 제16/995,607호)에 기재된 접근법을 사용하여 72.0%인 것으로 결정되었다. 분자 II(chr12:63,108,065-63,111,674)는 3.6 kb 길이이고, 34개의 CpG 부위를 보유한다. 분자 II의 단일 분자 메틸화 수준은 94.1%인 것으로 결정되었다. 이는 크기 선택 기반 메틸화 분석을 통해 긴 DNA 분자의 메틸화를 효율적으로 분석하고, 둘 이상의 분자 사이의 메틸화 상태를 비교할 수 있다는 것을 시사하였다.

B. 비드를 사용한 크기 선택

고체상 가역적 고정화 기술은 상자성 비드를 사용하여 DNA 분자 크기에 따라 핵산을 선택적으로 결합한다. 이러한 비드는 폴리스티렌 코어, 마그네타이트 및 카르복실레이트 변형 폴리머 코팅을 포함한다. DNA 분자는 반응에서 PEG와 염의 농도에 따라 폴리에틸렌 글리콜(PEG)과 염의 존재 하에서 비드에 선택적으로 결합한다. PEG는 음으로 하전된 DNA가 비드 표면의 카르복실기와 결합하도록 하여 자기장의 존재 하에 수집될 것이다. 용출 완충액, 예를 들어 10 mM Tris-HCl, pH 8 완충액 또는 물을 사용하여 자성 비드로부터 원하는 크기의 분자를 용출시켰다. DNA에 대한 PEG의 부피비는 얻을 수 있는 DNA 분자의 크기를 결정할 것이다. PEG:DNA의 비율이 낮을수록 더 긴 분자가 비드에 유지될 것이다.

1. 샘플 가공

2명의 제3 삼분기의 임신한 여성의 말초 혈액 샘플을 EDTA 혈액 튜브에 수집하였다. 말초 혈액 샘플을 수집하고 4°C에서 10분 동안 1,600 x g에서 원심분리하였다. 혈장 부분을 4°C에서 10분 동안 16,000 x g에서 추가로 원심분리하여 잔류 세포와 파편을 제거하였다. 버피 코트 부분을 실온에서 5분 동안 5,000 x g에서 원심분리하여 잔류 혈장을 제거하였다. 태반 조직은 분만 직후 채취되었다. QIAamp 순환 핵산 키트(Qiagen)를 사용하여 혈장 DNA 추출을 수행하였다. QIAamp DNA 미니 키트(Qiagen)를 사용하여 버피 코트 및 태반 조직 DNA 추출을 수행하였다.

2. 혈장 DNA 크기 선택

추출 후 혈장 DNA 샘플을 2개의 분취물로 나누었다. 각각의 환자의 분취물 중 하나를 AMPure XP SPRI 비드(Beckman Coulter, Inc.)를 사용하여 크기 선택하였다. 추출된 각각의 혈장 DNA 샘플 50 μL에 AMPureXP 용액 25 μL를 철저히 혼합하고 실온에서 5분 동안 인큐베이션시켰다. 비드를 자석을 사용하여 용액에서 분리하고, 180 μL 80% 에탄올로 세척하였다. 그런 다음 비드를 50 μL 물에 재현탁하고, 1분 동안 볼텍싱하여 비드에서 선택된 크기의 DNA를 용출하였다. 이후에 비드를 제거하여 크기가 선택된 DNA 용액을 얻었다.

3. 단일-뉴클레오타이드 다형성 식별

태아 게놈 DNA 샘플 및 모 게놈 DNA 샘플을 iScan 시스템(Illumina)으로 유전자형분석하였다. 단일 뉴클레오타이드 다형성(SNP)이라고 지칭하였다. 태반의 유전자형을 산모의 유전자형과 비교하여 태아-특이적 대립형질과 모-특이적 대립형질을 식별하였다. 태아-특이적 대립형질은 태아 게놈에는 존재하지만 모 게놈에는 없는 대립형질로 정의하였다. 일 실시형태에서, 그러한 태아-특이적 대립형질은 어머니가 동형접합성이고 태아가 이형접합성인 SNP 부위를 분석함으로써 결정될 수 있다. 모-특이적 대립형질은 모 게놈에는 존재하지만 태아 게놈에는 존재하지 않는 대립형질에 의해 정의되었다. 일 실시형태에서, 이러한 태아-특이적 대립형질은 어머니가 이형접합성이고 태아가 동형접합성인 SNP 부위를 분석함으로써 결정될 수 있다.

4. 단일-분자 실시간 시퀀싱

크기가 선택된 두 개의 샘플과 해당하는 선택되지 않은 샘플을 SMRTbell Template Prep Kit 1.0-SPv3(Pacific Biosciences)를 사용하여 단일 분자 실시간(SMRT) 시퀀싱 템플릿 작제에 적용하였다. DNA를 1.8x AMPure PB 비드로 정제하고 TapeStation 기기(Agilent)를 사용하여 라이브러리 크기를 추정하였다. 시퀀싱 프라이머 어닐링 및 중합효소 결합 조건은 SMRT Link v5.1.0 소프트웨어(Pacific Biosciences)로 계산되었다. 간단히, 시퀀싱 프라이머 v3은 시퀀싱 주형에 어닐링되었고, 이후 중합효소는 Sequel Binding and Internal Control Kit 2.1(Pacific Biosciences)을 사용하여 주형에 결합되었다. 시퀀싱은 Sequel SMRT Cell 1M v2에서 수행되었다. 시퀀싱 무비는 Sequel Sequencing Kit 2.1(Pacific Biosciences)으로 20시간 동안 Sequel 시스템에서 수집되었다.

5. 크기 분석

도 88은 크기 선택이 있거나 없는 샘플에 대한 시퀀싱 정보의 표이다. 제1 열은 샘플 식별자이다. 제2 열은 크기 선택 여부와 상관없이 샘플 군을 열거한다. 제3 열은 시퀀싱된 분자의 수를 열거한다. 재4 열은 평균 하위판독물 깊이를 열거한다. 제5 열은 중간 단편 크기를 열거한다. 제6 열은 500 bp 이상의 단편의 비율을 나타낸다.

본 발명자들은 비드 기반 크기 선택이 있거나 없는 2개의 샘플(299 및 300)을 분석하였다. 도 88에 도시된 바와 같이, 단일 분자 실시간 시퀀싱(예를 들어, PacBio SMRT 시퀀싱)을 사용하여 크기 선택 없이 샘플 299 및 300에 대해 각각 250만 개 및 310만 개의 시퀀싱된 분자를 얻었다. 평균 하위판독물 깊이는 91x와 67x였다. 중간 단편 크기는 176 및 512 bp였다.

500 bp 이상의 DNA 단편을 선택하는 것을 목표로 하는 고체상 가역적 고정화 기반 크기 선택이 있는 쌍을 이룬 샘플(B299 및 B300)의 경우 평균 하위판독물 깊이가 18x 및 19x인 각각 410만 및 200만 개의 시퀀싱된 분자를 얻었다. 중간 단편 크기는 샘플 B299 및 B300에 대해 각각 2.5 kb 및 2.2 kb인 것으로 밝혀졌다. 평균 단편 크기는 크기 선택이 없는 상응하는 샘플보다 4 내지 14배 더 길었다. 크기 선택 후 500 bp 이상의 단편의 비율은 샘플 B299의 경우 27.3%에서 97.6%로, 샘플 B300의 경우 50.5%에서 97.4%로 증가하였다.

도 89a 및 도 89b는 비드 기반 크기 선택이 있거나 없는 임신한 여성의 DNA 샘플에 대한 크기 분포를 나타낸다. 도 89a는 샘플 299를 도시하고, 도 89b는 샘플 300을 도시한다. x축은 단편의 크기를 나타낸다. y축은 각각의 단편 크기에 대한 빈도를 로그 배율로 나타낸다. 비드 기반 크기 선택 후 DNA 샘플에서 1 kb 초과의 긴 DNA 분자에 걸쳐 더 높은 빈도가 존재하였다. 이러한 데이터는 비드 기반 크기 선택이 다운스트림 분석을 위해 더 긴 DNA 분자를 농축할 수 있음을 시사하였다. 이러한 농축은 시퀀싱 실행당 시퀀싱된 긴 DNA 분자의 수를 최대화하여 분석을 보다 비용 효율적으로 만들 것이다. 긴 DNA 분자의 이러한 농축은 메틸화 패턴 일치 분석을 위해 각각의 혈장 DNA 분자의 CpG 부위에 더 접근할 수 있기 때문에 각각의 DNA 분자의 기원 조직을 분석할 때 정보성을 향상시킬 것이다. 일 실시형태에서, 메틸화 분석은 미국 출원 제16/995,607호에 기재된 방법을 사용하여 수행될 수 있다. 뉴클레오솜 패턴은 크기 선택이 있는 샘플에서 보존되었으며, 이는 크기가 선택된 혈장 DNA 분자가 뉴클레오솜 구조 연구에 적합할 것임을 시사한다.

샘플 299에 대해 마이크로어레이 기술(Infinium Omni2.5)을 사용하여 모 버피 코트 DNA 및 태반 DNA에 대한 유전자형 정보를 얻었다. 시퀀싱된 혈장 DNA 분자를 유전자형 정보에 따라 모-특이적 DNA 분자와 태아-특이적 DNA 분자로 구별하였다.

도 90a 및 도 90b는 태아-특이적 DNA 분자와 모-특이적 DNA 분자 사이의 크기 분포를 나타낸다. 크기는 x축에 나타낸다. 도 90a에서 y축은 빈도를 나타낸다. 도 90b에서 y축은 누적 빈도를 나타낸다. 도 90a에 도시된 바와 같이, 태아 DNA 크기 분포는 모 DNA 크기 분포와 비교하여 상대적으로 더 작은 분자에서 더 높은 빈도를 나타내었다. 도 90b에 도시된 바와 같이, 이러한 태아 DNA 분자의 크기 감소는 누적 빈도 플롯에서 나타나며, 즉 태아 DNA 누적 크기 분포는 모체의 좌측에 위치하였다.

C. 크기 선택을 사용한 혈장 DNA의 정보성의 강화

실시형태에서, 정보가 있는 SNP는 태아 또는 모 게놈에 특이적인 대립형질을 함유하는 SNP에 의해 정의될 수 있다. 이러한 SNP는 태아 DNA 분자와 모 DNA 분자를 구별하는 수단을 제공하였다. 본 발명자들은 419,539개의 정보가 있는 SNP를 식별하였다. 다른 실시형태에서, 정보가 있는 SNP는 모 게놈에서 이형접합성인 SNP에 의해 정의될 수 있다. 다른 실시형태에서, 정보가 있는 SNP는 이형접합성이고 일배체형의 형태로 함께 군화된 모 게놈의 SNP에 의해 정의될 수 있다.

도 91은 크기 선택이 있는 샘플과 크기 선택이 없는 샘플 사이에서 정보가 있는 SNP를 보유하는 혈장 DNA 분자의 수에 대한 통계 표이다. 제1 열은 샘플 아이덴티피케이션 및 군을 나타낸다. 제2 열은 분석될 혈장 DNA 분자의 총 수를 나타낸다. 제3 열은 정보가 있는 SNP를 보유하는 혈장 DNA 분자의 수를 나타낸다. 제4 열은 정보가 있는 SNP를 보유하는 혈장 DNA 분자의 백분율을 나타낸다.

도 91에 나타낸 바와 같이, 크기 선택이 없는 샘플에서 정보가 있는 SNP를 보유하는 혈장 DNA 분자의 6.5%만이 있었던 반면, 정보가 있는 SNP를 보유하는 혈장 DNA 분자의 비율은 20.6%까지 증가하였다. 따라서, 크기 선택을 사용하는 것은 본 개시내용에 존재하는 유틸리티에 적합한 긴 DNA 분자의 수율을 크게 향상시킬 것이다. 본 발명자들은 크기 선택 없이 샘플 299에서 500 bp를 초과하는 260개 태아 DNA 분자를 식별한 반면, 크기 선택이 있는 샘플 B299에서는 500 bp를 초과하는 918개 태아 DNA 분자를 식별하였다. 시퀀싱 처리량을 정규화함으로써 이러한 데이터는 비드 기반 크기 선택을 사용하여 500 bp를 초과하는 태아-특이적 DNA 분자를 얻는 데 약 3배 농축이 있음을 시사하였다. 크기 선택을 통해 분석을 위한 긴 태아 DNA 분자의 수를 크게 증가시킬 것이다.

D. 메틸화

도 92는 크기 선택된 혈장 DNA 샘플 및 크기 선택이 없는 혈장 DNA 샘플에서의 메틸화 수준의 표이다. 제1 열은 샘플 아이덴티피케이션을 나타낸다. 제2 열은 군을 나타낸다. 제3 열은 메틸화된 CpG 부위의 수를 나타낸다. 제4 열은 메틸화되지 않은 CpG 부위의 수를 나타낸다. 제5 열은 메틸화 부위와 전체 부위의 수에 따른 메틸화 수준을 나타낸다. 도 92에 도시된 바와 같이, 전체 메틸화 수준은 상응하는 선택되지 않은 샘플과 비교하여 크기-선택된 샘플에서 더 높은 것으로 나타났다(모든 CpG 부위에서 샘플 299 및 B299의 경우 71.5% 대 69.1%; 샘플 300 및 B300의 경우 71.4% 대 69.3%).

도 93은 모- 또는 태아-특이적 세포유리 DNA 분자에서 메틸화 수준의 표이다. 제1 열은 샘플 아이덴티피케이션을 나타낸다. 제2 열은 군을 나타낸다. 제3 열은 메틸화된 CpG 부위의 수를 나타낸다. 제4 열은 메틸화되지 않은 CpG 부위의 수를 나타낸다. 제5 열은 메틸화 부위와 전체 부위의 수에 따른 메틸화 수준을 나타낸다.

도 93에 나타낸 바와 같이, 크기 선택이 없는 샘플과 비교할 때 크기 선택이 있는 샘플의 태아-특이적 및 모-특이적 혈장 DNA 분자 모두에서 메틸화 수준의 증가가 관찰되었다. 이러한 태아-특이적 단편은 크기 선택된 샘플 및 크기 선택되지 않은 샘플 둘 다에서 혈장의 모-특이적 DNA 분자와 비교하여 저메틸화되는 경향이 있다.

E. 단부 모티프

도 94는 크기 선택이 있거나 없는 샘플의 상위 10개 단부 모티프의 표이다. 제1 열은 순위를 나타낸다. 제2 열 내지 제5 열은 크기 선택이 없는 샘플에 대한 것이다. 제6 열 내지 제9 열은 크기 선택이 있는 샘플에 대한 것이다. 제2 열은 샘플 ID를 열거한다. 제2, 제4, 제6 및 제8 열은 단부 모티프를 열거한다. 제3, 제5, 제7 및 제9 열은 단부 모티프의 빈도를 열거한다.

도 94에 도시된 바와 같이, 크기 선택 없이, 단일 분자 실시간 시퀀싱에 의해 시퀀싱된 혈장 DNA 분자는 C로 시작하는 단부 모티프를 우선적으로 표시하는데, 이는 뉴클레아제 DNASE1L3의 절단 시그니처를 시사한다(문헌[Han et al., Am J Hum Genet 2020; 106: 202-214]). 대조적으로, 크기 선택이 있는 샘플의 경우, 단일 분자 실시간 시퀀싱에 의해 시퀀싱된 혈장 DNA는 주로 A 또는 G로 시작하는 단부 모티프를 보유하는데, 이는 뉴클레아제 DFFB의 절단 시그니처를 시사한다(문헌[Han et al. Am J Hum Genet 2020; 106: 202-214]). 이러한 데이터는 크기 선택이 세포유리 DNA의 단편화에서 다른 효소적 과정에서 유래된 혈장 DNA 분자를 선택적으로 농축할 수 있음을 시사하였다. 이러한 선택적 표적화는 하나 이상의 뉴클레아제의 비정상적인 수준과 관련된 장애의 분석, 검출 또는 모니터링에 유용할 것이다. 일 실시형태에서, 혈장 DNA의 크기 선택은 DFFB 활성 또는 DFFB 매개 DNA 분해 동력학을 모니터링하기 위한 성능을 향상시킬 것이다.

일부 실시형태에서, 긴 혈장 DNA에 대해 농축된 비드에 결합된 DNA 및 짧은 혈장 DNA에 대해 농축된 상청액에 보유된 DNA를 시퀀싱하였다. 긴 DNA는 일배체형 정보를 구성하는 데 유용할 것이다. 짧은 혈장 DNA는 DNASE1L3 활성을 모니터링하는 데 유용할 것이다. 실시형태에서, 긴 DNA 분자 및 짧은 DNA 분자의 상승작용적 결합 분석을 수행할 것이다. 예를 들어, 짧은 DNA 혈장 DNA를 모 일배체형(즉, Hap I 및 Hap II)에 정렬하면 더 짧은 DNA 및/또는 더 많은 저메틸화 및/또는 상대적으로 더 높은 용량을 나타내는 하나의 모 일배체형이 태아에 의해 유전될 가능성이 높다.

일부 실시형태에서, 크기 선택은 겔 전기영동 기반 기술, 예컨대, PippinHT DNA 크기 선택, BluePippin DNA 크기 선택, Pippin Prep DNA 크기 선택 시스템, SageELF 전체 샘플 분별 시스템, Pippin Pulse Electrophoresis, SageHLS HMW Library System 등을 포함하지만 이들로 제한되지 않는 것을 기반으로 할 수 있다.

F. 긴 혈장 DNA 분자는 기원 조직 분석의 성능을 향상시킨다.

도 95는 긴 혈장 DNA 분자가 조직 기원 분석의 성능을 향상시킨다는 것을 나타낸 리시버 작동 특징(ROC) 그래프이다. y축은 감도를 나타낸다. x축은 특이도를 나타낸다. 상이한 선은 상이한 크기의 단편에 대한 결과를 나타낸다. 곡선 하 면적(AUC)이 가장 높은 적색 선은 3,000 bp보다 큰 단편에 대한 것이다.

도 95에 나타낸 바와 같이, 임신한 여성의 혈장에서 태아 DNA 및 모 DNA 분자를 구별할 때, 본 개시내용의 실시형태에 따른 긴 혈장 DNA 분자(예를 들어, 3000 bp 초과)(AUC: 0.94)에 기초한 성능이 100 내지 200 bp(AUC: 0.66) 및 200 내지 500 bp(AUC: 0.67)를 갖는 것과 같은 비교적 짧은 DNA 분자에 기초한 분석보다 훨씬 더 높았다. 이러한 데이터는 긴 혈장 DNA의 사용이 태아 DNA 분자와 모 DNA 분자를 구별하는 정확도를 크게 향상시켜 비침습적 방식으로 태아 유전을 결정하는 데 더 높은 성능을 유도할 수 있음을 시사하였다.

VII. 모 혈장 DNA의 긴 DNA 분석을 위한 나노기공 시퀀싱

단일 분자 실시간 시퀀싱 기술을 사용하는 것 외에도 나노기공 시퀀싱을 사용하여 모 혈장에서 긴 세포유리 DNA 단편을 시퀀싱할 수 있다. 메틸화 및 SNP 정보는 긴 세포유리 DNA 단편의 나노기공 시퀀싱의 정확도를 향상시킬 수 있다.

도 96은 단일 DNA 분자가 나노미터 크기의 기공을 통과할 때 막을 가로지르는 이온 전류의 변화로부터 핵산의 서열을 유추하는 임신한 여성으로부터 얻은 혈장 DNA의 나노기공 시퀀싱 원리를 나타낸다. 이러한 기공은 예를 들어, 비제한적으로 단백질(예를 들어, 알파 용혈소, 에어로리신 및 마이코박테리움 스메그마티스 포린(MspA: Mycobacterium smegmatis porin A)) 또는 합성 물질, 예컨대, 실리콘 또는 그래핀에 의해 생성될 수 있다(문헌[Magi et al, Brief Bioinform. 2018;19:1256-1272]). 실시형태에서, 이중 가닥 혈장 DNA 분자는 단부 수선 과정을 거친다. 이러한 과정은 혈장 DNA를 뭉특한 단부 DNA로 변환한 후 A 꼬리를 추가할 것이다. 각각의 모터 단백질을 보유하는 서열 어댑터(즉, 모터 어댑터)는 도 96에 도시된 바와 같이 혈장 DNA 분자의 양쪽 단부에 결찰된다. 시퀀싱 과정은 모터 단백질이 이중 가닥 DNA를 풀어 첫 번째 가닥이 나노기공을 통과할 수 있게 함으로써 시작된다. DNA 가닥이 나노기공을 통과할 때 센서는 서열 컨텍스트 및 관련 염기 변형(1D 판독물이라고 함)에 좌우되는 시간 경과에 따른 이온 전류 변화(pA)를 측정한다. 다른 실시형태에서, 헤어핀 서열 어댑터는 제1 가닥 및 상보적 가닥을 함께 공유적으로 테더링하기 위해 사용될 것이다. 시퀀싱 중에 이중 가닥 DNA 분자의 가닥이 시퀀싱되고 그 다음 상보적 가닥(1D2 또는 2D 판독물이라고 함)이 시퀀싱되어 시퀀싱 정확도를 잠재적으로 향상시킬 수 있다. 원시 전류 신호는 염기 콜링 및 염기 변형 분석에 사용된다. 다른 실시형태에서, 염기 콜링 및 염기 변형 분석은 기계 학습 접근법, 예를 들어, 비제한적으로 순환 신경망(RNN) 또는 은닉 마르코프 모델(HMM)에 의해 수행된다. 본 개시내용에서, 본 발명자들은 나노기공 시퀀싱을 사용하여 분자 수, 염기 조성, 분자 크기, 단부 모티프 및 염기 변형을 포함하지만 이들로 제한되지 않는 혈장 DNA 분자의 특성을 특징규명하는 방법을 제시하였다.

설명을 위해 나노기공 시퀀싱(Oxford Nanopore Technologies)을 사용하여 재태 연령이 38주인 임신한 여성의 모 혈장 DNA 샘플(M12970, M12985 및 M12969)을 시퀀싱하였다. 모 혈장 4 mL로부터 추출된 혈장 DNA를 Ligation Sequencing Kit(Oxford Nanopore)를 사용하여 라이브러리 준비를 수행하였다. 간략하면, DNA는 FFPE Repair Mix(NEB)로 수선한 다음, NEBNext End Prep 모듈(NEB)로 단부-수선 및 A-꼬리 처리하였다. 그런 다음, 어댑터 믹스를 수선된 DNA에 추가하고 blunt/TA 마스터 믹스로 결찰하였다. AMPure XP 비드(Beckman)로 세정한 후, 어댑터 결찰 라이브러리를 시퀀싱 버퍼 및 로딩 비드와 혼합하고 PromethION R9 유동 셀에 로딩하였다. 유동 셀을 64시간 동안 PromethION 베타 장치(Oxford Nanopore)에서 시퀀싱하였다.

A. 정렬

Minimap2(Li H, Bioinformatics. 2018;34(18):3094-3100)를 사용하여 시퀀싱된 판독물을 인간 참조 게놈(hg19)에 정렬하였다. 일부 실시형태에서, BLASR(문헌[Mark J Chaisson et al, BMC Bioinformatics. 2012; 13: 238]), BLAST(문헌[Altschul SF et al, J Mol Biol. 1990;215(3):403-410]), BLAT(문헌[Kent WJ, Genome Res. 2002;12(4):656-664]), BWA(문헌[Li H et al, Bioinformatics. 2010;26(5):589-595]), NGMLR(문헌[Sedlazeck FJ et al, Nat Methods. 2018;15(6):461-468]) 및 LAST(문헌[Kielbasa SM et al, Genome Res. 2011;21(3):487-493])가 시퀀싱된 판독물을 참조 게놈에 정렬하기 위해서 사용될 수 있다. 본 발명자들은 샘플 M12970, M12985 및 M12969에 대해 각각 1131만 개, 1230만 개, 및 2128만 개의 시퀀싱된 분자를 얻었다. 이 중, 매핑된 단편의 수는 각각 367만 개, 263만 개, 433만 개였다.

B. 크기 및 메틸화

나노기공 시퀀싱에 의해 결정된 혈장 DNA 분자의 뉴클레오타이드 수를 해당 DNA 분자의 크기를 추론하는 데 사용하였다. DNA 분자의 현재 신호는 염기 변형을 결정하는 데 사용할 수 있다. 실시형태에서, 각각의 CpG 부위에 대한 메틸화 상태는 오픈 소스 소프트웨어 Nanopolish에 의해 결정되었다(문헌[Simpson et al, Nat Methods. 2017;14:407-410]). 다른 실시형태에서, 메틸화 상태는 DeepMod(문헌[Liu et al, Nat Commun. 2019;10:2449]), Tomo(문헌[Stoiber et al, BioRxiv. 2017:p.094672]), DeepSignal(문헌[Ni et al, Bioinformatics. 2019;35:4586-4595]), Guppy(github.com/nanoporetech), Megalodon (github.com/nanoporetech/megalodon) 등을 포함하지만 이들로 제한되지 않는 다른 소프트웨어를 사용함으로써 결정될 수 있다.

도 97은 특정 크기 범위의 혈장 DNA 분자의 백분율 및 이들의 상응하는 메틸화 수준의 표이다. M12970, M12985 및 M12969의 세 가지 샘플이 제시된다. 제1 열은 단편 크기를 나타낸다. 제2 열은 해당 단편 크기의 단편의 수를 나타낸다. 제3 열은 단편 크기의 빈도를 나타낸다. 제4 열은 단편 크기의 메틸화된 CpG 부위의 수를 나타낸다. 제5 열은 단편 크기의 메틸화되지 않은 CpG 부위의 수를 나타낸다. 제6 열은 메틸화 수준을 백분율로 나타낸다.

도 97에 도시된 바와 같이, 500 bp 이상의 크기를 갖는 DNA 분자의 비율은 샘플 M12970, M12985 및 M12969에 대해 각각 16.6%, 7.6% 및 12.6%였다. 크기가 500 bp 이상인 DNA 분자의 비율은 Illumina 시퀀싱으로 생성된 데이터(0.2%)보다 훨씬 높았다. 500 bp 이상의 크기를 갖는 DNA 분자의 메틸화 수준은 샘플 M12970, M12985 및 M12969에 대해 각각 64.12%, 65.05% 및 63.30%였다. 또한, 메틸화 수준은 혈장 DNA가 더 긴 집단에서 증가하였다. 예를 들어, 샘플 M12970의 경우, 메틸화 수준은 크기가 2000 bp 이상인 분자에서 70.7%였으며, 이는 크기가 500 bp 이상인 분자에 비해 메틸화 수준이 10.3% 증가한 것이었다. 더 긴 DNA를 가진 집단에서 유사한 증가 경향이 샘플 M12985 및 M12969에서도 관찰되었다. 크기가 상이한 혈장 DNA 분자는 비제한적으로 노화, 세포자멸사, 괴사, 활성 분비 등과 같은, 세포유리 DNA를 혈액 순환에 기여하는 다양한 경로를 반영한다. 긴 DNA 분자의 메틸화 상태는 그러한 긴 DNA 분자의 기원 조직을 추론하는 것을 추가로 가능하게 할 것이다. 따라서 긴 DNA 분자 단편화 패턴과 메틸화 패턴의 조합 분석은 특정 기관에 대한 노화, 세포자멸사, 괴사 및 활성 분비의 상대적 비율을 추론할 수 있다. 상이한 경로에 의한 세포유리 DNA 생성의 상대적 비율은 임신, 자간전증, 조산, 자궁내 성장 제한 등과 같은 근본적인 병태생리학적 조건을 반영한다.

도 98은 상이한 크기에 따른 크기 분포 및 메틸화 패턴의 그래프이다. 크기는 x축에 나타낸다. 빈도는 좌측 y축에 나타낸다. 메틸화 수준은 우측 x축에 나타낸다. 크기 분포(빈도) 데이터는 흑색 선으로 나타낸다. 표시된 메틸화 수준은 황색으로 나타낸다.

도 98은 상이한 단편 크기에 걸친 크기 분포 및 메틸화 수준을 나타낸다. 크기 분포는 164 bp, 313 bp 및 473 bp에서 다중 피크를 보유하며, 평균 간격은 154 bp이다. 이러한 크기 분포 패턴은 뉴클레아제 절단 뉴클레오솜을 연상시키며, 이는 혈장 DNA 단편화의 비무작위 과정이 나노기공 시퀀싱으로 식별될 수 있음을 시사한다. Illumina 시퀀싱 데이터를 기반으로 한 166 bp에서 주요 피크가 있는 혈장 DNA 크기 패턴과 대조적으로 주요 피크는 380 bp였다. 이러한 데이터는 나노기공 시퀀싱이 더 긴 DNA 단편을 풍부하게 할 것임을 나타낸다. 이러한 혈장 DNA의 나노기공 시퀀싱 특성은 짧은-판독물 시퀀싱 기술로 해결하기 어려운 변이체를 검출하는 데 특히 유용할 것이다. 실시형태에서, 나노기공 시퀀싱은 삼중항 반복 확장을 분석하는 데 유용할 것이다. 트리뉴클레오타이드 반복의 수는 취약 X 증후군, 헌팅턴병, 척수소뇌 실조증, 근긴장성 이영양증 및 프리드라이히 운동실조증과 같은 트리뉴클레오타이드 반복부 장애의 진행, 중증도 및 발병 연령을 예측하는 데 사용된다. 도 98은 또한 상이한 크기에 따라 다양한 메틸화 수준을 나타낸다. 일련의 메틸화 피크 값은 크기 분포의 피크와 일치하였다.

C. 태아 DNA 및 모 DNA

iScan 플랫폼(Illumina)을 사용하여 모 버피 코트 및 태반으로부터 추출된 DNA의 유전자형분석에 의해서, 모체가 동형접합성(AA)이고 태아가 이형접합성(AB)인 204,410개(범위: 199,420개 내지 205,597개)의 정보가 있는 SNP의 중간값을 식별하였고, 이를 태아-특이적 대립형질 (B) 및 공유 대립형질 (A)를 결정하는 데 사용하였다.

도 99는 나노기공 시퀀싱을 사용하여 결정된 태아 DNA 분율의 표이다. 제1 열은 샘플 식별자를 나타낸다. 제2 열은 공유 대립형질을 보유하는 분자의 수를 나타낸다. 제3 열은 태아-특이적 대립형질을 보유하는 분자의 수를 나타낸다. 제4 열은 제3 열의 값에 2를 곱하고 제2 열과 제2 열의 합으로 나눈 태아 DNA 분율을 나타낸다. 도 99에 도시된 바와 같이, 본 발명자들은 샘플 M12970, M12985 및 M12969 각각에 대해 공유 대립형질을 보유하는 84,911개, 52,059개, 및 95,273개의 분자와 태아-특이적 대립형질을 보유하는 17,776개, 7,385개, 및 17,007개의 분자를 식별하였다. 태아 DNA 분율은 샘플 M12970, M12985 및 M12969에 대해 각각 34.6%, 24.9% 및 30.3%로 결정되었다. 또한, 본 발명자들은 212,330개의 정보가 있는 SNP(범위: 210,411 내지 214,744)의 중간값을 확인했으며, 여기서 어머니는 이형접합성(AB)이고 태아는 동형접합성(AA)이었으며, 이를 모-특이적 대립형질 (B)를 결정하는 데 사용하였다. 본 발명자들은 샘플 M12970, M12985 및 M12969 각각에 대해 공유 대립형질을 보유하는 65,349개, 34,017개, 및 65,481개의 분자와 모-특이적 대립형질을 보유하는 43,594개, 26,704개, 및 48,337개의 분자를 확인하였다.

도 100은 태아-특이적 DNA 분자와 모-특이적 DNA 분자 사이의 메틸화 수준의 표이다. 제1 열은 샘플 식별자를 나타낸다. 제2, 제3 및 제4 열은 태아-특이적 DNA에 대한 결과를 나타낸다. 제5, 제6 및 제7 열은 모-특이적 DNA에 대한 결과를 나타낸다. 제2 및 제5 열은 메틸화된 CpG 부위의 수를 나타낸다. 제3 및 제6 열은 메틸화되지 않은 CpG 부위의 수를 나타낸다. 제4 열 및 제7 열은 메틸화 부위의 백분율에 기초한 메틸화 수준을 나타낸다.

본 개시내용의 실시형태에 따라, 각각의 태아-특이적 DNA 분자에 대한 메틸화 패턴을 결정하였다. 메틸화되는 것으로 결정된 시퀀싱된 CpG 부위의 비율(즉, 전체 메틸화 수준)은 도 100에 도시된 바와 같이 샘플 M12970, M12985 및 M12969에 대해 각각 62.43%, 62.39% 및 61.48%였다. 이러한 태아-특이적 DNA의 전반적인 메틸화 수준은 모-특이적 DNA의 대응물보다 평균 8% 낮았다. 이러한 결과는 나노기공 시퀀싱 결과를 사용하여 본 개시내용의 실시형태에 따른 태아 DNA 및 모 DNA 분자 사이의 차등 메틸화 패턴에 기초하여 태아 DNA 분자를 모 DNA 분자로부터 구별할 수 있음을 시사하였다.

도 101은 태아 DNA 분자 및 모 DNA 분자에 대한 특정 크기 범위의 혈장 DNA 분자의 백분율 및 이들의 상응하는 메틸화 수준의 표이다. M12970, M12985 및 M12969의 세 가지 샘플이 제시된다. 제1 열은 단편 크기를 나타낸다. 제2 열 내지 제6 열은 태아-특이적 DNA에 대한 결과를 나타낸다. 제7 열 내지 제 11열은 모-특이적 DNA에 대한 결과를 나타낸다. 제2 열 및 제7 열은 해당 단편 크기의 단편의 수를 나타낸다. 제3 열 및 제8 열은 해당 단편 크기의 빈도를 나타낸다. 제4 열 및 제9 열은 해당 단편 크기의 메틸화된 CpG 부위의 수를 나타낸다. 제5 열 및 제11 열은 해당 단편 크기의 메틸화되지 않은 CpG 부위의 수를 나타낸다. 제6 열 및 제11 열은 메틸화 수준을 백분율로 나타낸다.

도 101에 도시된 바와 같이, 태아-특이적 및 모-특이적 DNA 분자의 특성은 500 bp 이상, 600 bp 이상, 1000 bp 이상 및 2000 bp 이상을 포함하지만 이들로 제한되지 않는 다양한 크기 범위로 분석되었다. 모 DNA 분자와 비교하여 크기가 1 kb 이상인 태아 DNA 분자의 상대적으로 작은 비율을 얻었다. 그러나 임산부의 혈장(범위: 4.9% 내지 9.3%)에서 이러한 긴 태아 DNA 분자(예를 들어, 1000 bp 이상)의 양은 Illumina 시퀀싱에 의한 예상 값(0.2% 미만)보다 상당히 높았다. 이러한 긴 태아 DNA 단편은 Illumina 시퀀싱 플랫폼(예를 들어, MiSeq, NextSeq, HiSeq, NovaSeq 등)과 같은 기존의 짧은-단편 시퀀싱 기술에서는 쉽게 드러나지 않는데, 그 이유는 DNA 라이브러리의 삽입물 크기가 550 bp 미만으로 제한되기 때문이다(예를 들어, Illumina NextSeq system, support.illumina.com/sequencing/sequencing_instruments/nextseq-550/questions.html). 실시형태에서, 크기 및 메틸화 프로파일을 포함하지만 이들로 제한되지 않는 긴 태아 DNA 및 모 DNA 단편의 분석은 다양한 질환을 평가하기 위한 새로운 도구를 제공할 수 있다. 예를 들어, DNASE1L3 결핍은 단일 유전자 전신 홍반성 루푸스를 유발한다. 그러한 DNASE1L3 결핍은 더 긴 DNA 분자의 생성을 초래할 것이다(문헌[Chan et al, Am J Hum Genet. 2020;107:882-894]). 따라서, 본원에 기재된 실시형태는 그러한 긴 DNA 분자의 특성을 분석함으로써 임신 동안 이들 환자의 질환 중증도를 모니터링하고 태아가 동일한 상태에 의해 영향을 받을지 여부를 평가하는 데 특히 민감할 것이다.

도 102a 및 도 102b는 나노기공 시퀀싱에 의해 결정된 태아 DNA 및 모 DNA 분자의 크기 분포의 그래프이다. 단편의 크기를 x축에 나타낸다. 빈도는 도 102a에서 선형 배율로, 도 102b에 로그 배율로 y축에 나타낸다. 모 DNA는 청색 선으로 나타낸다. 태아 DNA는 적색 선으로 나타낸다.

도 102a 및 도 102b에서 볼 수 있듯이, 모 DNA 및 태아 DNA 분자는 모두 Illumina 짧은 판독물 시퀀싱 플랫폼에서 이전에 보고된 것보다 더 긴 DNA 분자를 포함하였다(문헌[Lo et al, Sci Transl Med. 2020;2:61ra91]). 이러한 결과는 나노기공 시퀀싱에 의한 혈장 DNA의 분석이 이전에는 인식되지 않았던 세포유리 DNA의 일련의 새로운 특성을 드러냈다는 것을 시사하였다. 이러한 특성은 비침습적 산전 검사에 사용할 수 있다.

D. 태아 DNA 분자 및 모 DNA 분자의 결정을 위한 개선된 정확도

나노기공 시퀀싱은 더 높은 시퀀싱 오류(약 5% 내지 40%)를 동반하므로(문헌[Goodwin et al, Genome Res. 2015;25:1750-1756]), 그것은 SNP 유전자형 정보에 기초하여 태아 DNA 분자 및 모 DNA 분자의 부정확한 분류를 초래할 수 있다. 실시형태에서, 단편을 스코어링하고 그 단편이 태반에서 유래되었는지 여부를 결정하기 위해 2개 이상의 정보가 있는 SNP를 사용할 수 있다. 예를 들어, 모체가 동형접합성(AA)이고 태아가 이형접합성(AB)인 두 개의 정보가 있는 SNP를 포함하는 단편의 경우, 두 개의 정보가 있는 SNP가 둘 다 그러한 단편이 태아에서 유래했다는 결론을 지지할 때만 그것은 태아 기원으로 결정될 것이다. 유사하게, 2개의 정보가 있는 SNP를 포함하는 단편의 경우, 2개의 정보가 있는 SNP가 둘 다 그러한 단편이 모체로부터 유래된 것임을 지지하는 경우에만 모체 기원으로 결정될 것이다.

도 103은 단일 정보 SNP 및 2개의 정보 SNP에 기초한 태아 DNA 및 모 DNA 분자 사이의 메틸화 수준의 차이를 나타내는 그래프이다. y축은 메틸화 수준의 차이를 태아 DNA 분자 및 모 DNA 분자 간의 백분율로 나타낸다. x축은 메틸화 수준의 차이에 대해 단일의 정보가 있는 SNP를 사용하는 것 대 2개의 정보가 있는 SNP를 사용하는 것을 나타낸다.

도 103에 도시된 바와 같이, 태아 DNA 분자와 모 DNA 분자를 구별하기 위해 두 개의 정보가 있는 SNP를 사용하면, 태아 DNA 분자와 모 DNA 분자 사이의 메틸화 수준의 차이는 하나의 정보가 있는 SNP를 기반으로 한 결과보다 훨씬 컸다. 태아-특이적 분자와 모-특이적 분자 사이의 메틸화 수준의 평균 차이는 5.4%에서 11.3%로 증가했으며, 이는 109% 증가에 해당한다. 이러한 결과는 다중 SNP의 사용이 태아-특이적 DNA 분자와 모-특이적 DNA 분자를 구별하는 정확도를 크게 향상시킬 것임을 시사하였다.

도 104는 태아 DNA 분자와 모 DNA 분자 사이의 메틸화 수준의 차이의 표이다. 제1 열은 샘플 식별자를 나타낸다. 제2, 제3 및 제4 열은 태아-특이적 DNA에 대한 결과를 나타낸다. 제5, 제6 및 제7 열은 모-특이적 DNA에 대한 결과를 나타낸다. 제2 및 제5 열은 메틸화된 CpG 부위의 수를 나타낸다. 제3 및 제6 열은 메틸화되지 않은 CpG 부위의 수를 나타낸다. 제4 열 및 제7 열은 메틸화 부위의 백분율에 기초한 메틸화 수준을 나타낸다.

도 104에서 볼 수 있는 바와 같이, 이러한 태아-특이적 DNA의 전반적인 메틸화 수준은 모-특이적 DNA의 대응물보다 평균 16.3% 낮았다. 실시형태에서, 메틸화 신호의 사용은 차례로 태아 DNA 및 모 DNA 분류의 정확도를 향상시킬 것이다. 예를 들어, 추정되는 태아-특이적 대립형질을 갖는 단편의 경우, 그 단편의 메틸화 수준이 역치보다 낮은 것으로 결정될 때, 그러한 단편은 태아로부터 유래될 우도가 높을 것이다. 이러한 역치 값은 비제한적으로 60%, 50%, 40%, 30%, 20%, 10% 등일 수 있다. 모-특이적 대립형질로 추정되는 단편의 경우 해당 단편의 메틸화 수준이 다음과 같을 때 역치 값보다 높은 것으로 결정된 경우 이러한 단편은 어머니로부터 유래될 우도가 높을 것이다. 이러한 역치 값은 비제한적으로 90%, 80%, 70%, 60%, 50%, 40% 등일 수 있다.

일부 다른 실시형태에서, 정보가 있는 SNP의 총 수는 적어도 예를 들어, 비제한적으로 3, 4, 5, 6, 7, 8, 9, 10 등일 필요가 있을 것이다. 태아에서 유래한 단편을 지지하는 정보가 있는 SNP의 수는 적어도 예를 들어 비제한적으로 3, 4, 5, 6, 7, 8, 9, 10 등일 필요가 있을 것이다. 어머니에서 유래한 단편을 지지하는 정보가 있는 SNP의 수는 적어도 예를 들어 비제한적으로 3, 4, 5, 6, 7, 8, 9, 10 등일 필요가 있을 것이다. 실시형태에서, 태아에서 유래한 단편을 지지하는 정보가 있는 SNP의 백분율은 특정 역치, 예를 들어, 1%, 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% 또는 100%에 도달할 필요가 있을 것이다. 어머니에서 유래한 단편을 지지하는 정보가 있는 SNP의 백분율은 특정 역치, 예를 들어, 1%, 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% 또는 100%에 도달할 필요가 있을 것이다.

일부 다른 실시형태에서, 혈장 DNA 분자를 원형화하고, 그 다음 롤링-원 증폭을 수행할 수 있다. 증폭된 DNA는 나노기공 시퀀싱에 의해서 시퀀싱될 수 있고, 따라서 주형 DNA 정보가 여러번 시퀀싱될 수 있다. 공통 서열은 반복적으로 시퀀싱된 정보로부터 추정될 수 있다.

VIII. V. 예시적 시스템

도 105는 본 개시내용의 실시형태에 따른 측정 시스템(10500)을 예시한다. 도시된 시스템은 검정 장치(10510) 내에 샘플(10505), 예컨대, 세포유리 DNA 분자를 포함하고, 여기서 검정(10508)은 샘플(10505)에서 수행될 수 있다. 예를 들어, 샘플(10505)은 검정 시약(10508)과 접촉되어 물리적 특징의 신호(10515)를 제공할 수 있다. 검정 장치의 일례는, 검정물의 프로브 및/또는 프라이머 또는 액적이 이동하는 관(액적은 검정물을 포함함)을 포함하는 유동 셀일 수 있다. 샘플로부터의 물리적 특징(10515)(예를 들면, 형광 강도, 전압, 또는 전류)은 검출기(10520)에 의해 검출된다. 검출기(10520)는 데이터 신호를 구성하는 데이터 포인트를 얻도록 간격(예를 들면, 주기적 간격)을 두어 측정을 실시할 수 있다. 일 실시형태에서, 아날로그-대-디지털 전환기는 검출기로부터의 아날로그 신호를 복수의 시점에서 디지털 형태로 전환시킨다. 검정 장치(10510) 및 검출기(10520)는 검정 시스템, 예를 들어 본원에 기재된 실시형태에 따른 시퀀싱을 수행하는 시퀀싱 시스템을 형성할 수 있다. 데이터 신호(10525)가 검출기(10520)로부터 로직 시스템(10530)으로 보내진다. 일례로서, 데이터 신호(10525)를 사용하여 DNA 분자의 참조 게놈 내의 위치 및/또는 서열을 결정할 수 있다. 데이터 신호(10525)는 샘플(10505)의 상이한 분자에 대한 상이한 색상의 형광 염료 또는 상이한 전기 신호와 같이 동시에 이루어진 다양한 측정을 포함할 수 있고, 따라서 데이터 신호(10525)는 다중 신호에 상응할 수 있다. 데이터 신호(10525)는 로컬 메모리(10535), 외부 메모리(10540) 또는 저장 장치(10545)에 저장될 수 있다.

로직 시스템(10530)은 컴퓨터 시스템, ASIC, 마이크로프로세서, 그래핑 프로세싱 유닛(GPU) 등일 수 있거나 이를 포함할 수 있다. 시스템은 또한 디스플레이(예를 들어, 모니터, LED 디스플레이 등) 및 사용자 입력 장치(예를 들어, 마우스, 키보드, 버튼 등)를 포함하거나 이들과 커플링될 수 있다. 로직 시스템(10530) 및 다른 구성요소는 독립형 또는 네트워크 연결 컴퓨터 시스템의 일부일 수 있거나, 이들은 검출기(10520) 및/또는 검정 장치(10510)를 포함하는 장치(예를 들어, 시퀀싱 장치)에 직접적으로 부착되거나 상기 장치에 통합될 수 있다. 로직 시스템(10530)은 또한 프로세서(10550)에서 실행되는 소프트웨어를 포함할 수 있다. 로직 시스템(10530)은 본원에 기재된 임의의 방법을 수행하도록 측정 시스템(10500)을 제어하는 명령을 저장하는 컴퓨터 판독 가능 매체를 포함할 수 있다. 예를 들어, 로직 시스템(10530)은, 시퀀싱 또는 다른 물리적 작동이 수행되도록, 샘플 홀더(10510)를 포함하는 시스템에 명령을 제공할 수 있다. 그와 같은 물리적 조작은 특정한 순서로, 예를 들면, 시약을 특정한 순서에서 추가하고 제거하면서 수행될 수 있다. 그와 같은 물리적 조작은 예를 들면, 샘플을 얻고 검정을 수행하는데 사용될 수 있는 로봇 팔을 포함한 로봇공학 시스템에 의해 수행될 수 있다.

측정 시스템(10500) 또한 대상체에게 치료를 제공할 수 있는 치료 장치(10560)를 포함할 수 있다. 치료 장치(10560) 는 치료를 결정하고/하거나 이를 사용하여 치료를 수행할 수 있다. 이러한 치료의 예는 수술, 방사선 치료법, 화학 치료법, 면역 치료법, 표적화된 치료법, 호르몬 치료법 및 줄기세포 이식을 포함할 수 있다. 로직 시스템(10530)은 예를 들어, 본원에 기재된 방법의 결과를 제공하기 위해 치료 장치(10560)에 연결될 수 있다. 치료 장치는(예를 들어, 로봇 시스템에 대한 제어와 같은 치료를 제어하기 위해) 영상 장치와 같은 다른 장치 및 사용자 입력으로부터 입력을 제공받을 수 있다.

본원에 언급된 컴퓨터 시스템 중 임의의 것이 임의의 적합한 수의 하위시스템을 활용할 수 있다. 이러한 서브시스템의 예는 도 106에서 컴퓨터 시스템(10)으로 도시된다. 일부 실시형태에서, 컴퓨터 시스템은 단일 컴퓨터 장치를 포함하며, 여기서 서브시스템은 컴퓨터 장치의 구성요소일 수 있다. 다른 구현예에서, 컴퓨터 시스템은 내부 구성요소와 함께, 각각 서브시스템인 다수의 컴퓨터 장치를 포함할 수 있다. 컴퓨터 시스템은 데스크탑 및 랩탑 컴퓨터, 태블릿, 휴대 전화 및 다른 모바일 기기를 포함할 수 있다.

도 106에 도시된 서브시스템은 시스템 버스(75)를 통해 서로 연결되어 있다. 디스플레이 어댑터(82)에 결합되는 프린터(74), 키보드(78), 저장 디바이스(들)(79), 모니터(76)(예를 들어, LED와 같은 디스플레이 스크린)와 같은 추가 서브시스템, 및 다른 장치가 도시된다. I/O 제어기(71)에 결합되는 주변 장치 및 입력/출력(I/O) 디바이스가 당해 분야에 공지된 임의의 개수의 수단, 예컨대 입력/출력(I/O) 포트(77)(예를 들면, USB, FireWire^®)에 의해 컴퓨터 시스템에 연결될 수 있다. 예를 들어, I/O 포트(77) 또는 외부 인터페이스(81)(예를 들어, 이더넷, Wi-Fi 등)는 컴퓨터 시스템(10)을 인터넷, 마우스 입력 디바이스 또는 스캐너와 같은 광역 네트워크에 연결시키도록 사용될 수 있다. 시스템 버스(75)를 통한 상호연결은 중앙 처리 장치(73)로 하여금 각각의 서브시스템과 통신하게 하고 시스템 메모리(72) 또는 저장 디바이스(들)(79)(예를 들어, 하드 드라이브 또는 광 디스크와 같은 고정 디스크)로부터의 복수의 명령어의 실행뿐만 아니라 서브시스템들 사이의 정보의 교환을 제어하게 한다. 시스템 메모리(72) 및/또는 저장 디바이스(들)(79)는 컴퓨터 판독 가능한 매체를 구현할 수 있다. 다른 서브시스템은 카메라, 마이크로폰, 가속도계 등과 같은 데이터 수집 디바이스(85)이다. 본원에 언급된 모든 데이터는 한 구성 요소에서 다른 구성 요소로 출력될 수 있으며 사용자에게 출력될 수 있다.

컴퓨터 시스템은, 예를 들어 외부 인터페이스(81)에 의해, 내부 인터페이스에 의해, 또는 하나의 구성요소로부터 다른 구성요소로 연결되거나 제거될 수 있는 제거 가능한 저장 장치를 통해 함께 연결되는, 복수의 동일한 구성요소 또는 서브시스템을 포함할 수 있다. 일부 실시형태에서, 컴퓨터 시스템, 서브시스템, 또는 장치는 네트워크를 통해 통신할 수 있다. 이러한 경우, 한 컴퓨터는 클라이언트로 간주될 수 있고 또 다른 컴퓨터는 서버로 간주될 수 있으며, 여기서 각각은 동일한 컴퓨터 시스템의 일부일 수 있다. 클라이언트 및 서버는 각각 다중 시스템, 서브시스템, 또는 구성요소를 포함할 수 있다.

실시형태의 양태는 하드웨어 회로(예를 들어, 특정 애플리케이션 집적 회로 또는 필드 프로그램 가능 게이트 어레이)를 사용하고/하거나 일반적으로 프로그램 가능 프로세서와 함께 모듈식 또는 통합된 방식으로 컴퓨터 소프트웨어를 사용하여 제어 로직의 형태로 구현될 수 있다. 본원에 사용된 바와 같이, 프로세서는 전용 하드웨어뿐만 아니라, 단일 코어 프로세서, 동일한 집적 칩 상의 멀티 코어 프로세서, 또는 단일 회로 기판 상의 또는 네트워크화된 다수의 프로세싱 유닛을 포함할 수 있다. 본원에 제공된 개시내용 및 교시를 기초로, 당업자는 하드웨어 및 하드웨어와 소프트웨어의 조합을 사용하여 본 개시내용의 구현예를 구현하는 다른 방식 및/또는 방법을 알고 인지할 것이다.

본 출원에 기술된 소프트웨어 컴포넌트들 또는 기능들 중 어느 하나는 예를 들어, 종래 또는 객체-지향 기술을 사용하는, 예를 들어 Java, C, C++, 객체형 C, Swift 또는 Perl 또는 Python과 같은 임의의 적절한 컴퓨터 언어를 사용하여 프로세서에 의해 실행될 소프트웨어 코드로서 구현될 수 있다. 소프트웨어 코드는 저장 및/또는 전송을 위해 컴퓨터 판독 가능 매체 상에 일련의 지시 또는 명령으로서 저장될 수 있다. 적합한 비일시적 컴퓨터 판독 가능 매체는 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 하드 드라이브 또는 플로피 디스크와 같은 자기 매체, 또는 컴팩트 디스크(CD) 또는 DVD(디지털 다목적 디스크) 또는 Blu-ray 디스크, 플래시 메모리 등과 같은 광학 매체를 포함할 수 있다. 컴퓨터 판독 가능 매체는 이러한 저장 또는 전송 디바이스의 임의의 조합일 수 있다.

이러한 프로그램들은 또한 인터넷을 포함하는 다양한 프로토콜을 따르는 유선, 광학 및/또는 무선 네트워크를 통한 전송에 적합한 캐리어 신호를 사용하여 인코딩 및 전송될 수 있다. 이와 같이, 컴퓨터 판독 가능 매체는 이러한 프로그램으로 인코딩된 데이터 신호를 사용하여 생성될 수 있다. 프로그램 코드로 인코딩된 컴퓨터 판독 가능 매체는 호환 가능한 디바이스에 패키징되거나 (예를 들어, 인터넷 다운로드를 통해) 다른 디바이스와 별도로 제공될 수 있다. 임의의 이러한 컴퓨터 판독 가능 매체는 단일 컴퓨터 제품(예를 들어, 하드 드라이브, CD 또는 전체 컴퓨터 시스템) 상에 또는 내부에 있을 수 있고, 시스템 또는 네트워크 내의 상이한 컴퓨터 제품 상에 또는 내부에 존재할 수 있다. 컴퓨터 시스템은 모니터, 프린터, 또는 본원에 언급된 결과 중 임의의 결과를 사용자에게 제공하기에 적합한 다른 디스플레이를 포함할 수 있다.

본원에 설명된 방법들 중 임의의 것은 단계를 수행하도록 구성될 수 있는 하나 이상의 프로세서를 포함하는 컴퓨터 시스템으로 전체적으로 또는 부분적으로 수행될 수 있다. 그러므로, 실시형태는 잠재적으로는 각각의 단계 또는 각각의 군의 단계들을 수행하는 상이한 구성요소와 함께, 본원에 설명된 방법들 중 임의의 방법의 단계를 수행하도록 구성된 컴퓨터 시스템에 관한 것일 수 있다. 번호가 표시된 단계로서 제시되지만, 본원의 방법의 단계는 논리적으로 가능한 동시에 또는 다른 시간에 또는 다른 순서로 수행될 수 있다. 또한, 이들 단계의 일부는 다른 방법으로부터의 다른 단계의 일부와 함께 사용될 수 있다. 또한, 단계의 전부 또는 일부는 선택적일 수 있다. 또한, 임의의 방법들의 임의의 단계는 이들 단계를 수행하기 위한 시스템의 모듈, 유닛, 회로, 또는 다른 수단에 의해 수행될 수 있다.

본 개시내용을 읽을 때 당업자에게 명백한 바와 같이, 본원에 설명되고 예시된 각각의 개별적인 실시형태는 본 개시내용의 범주 또는 사상으로부터 벗어나지 않고 다른 여러 실시형태의 특징으로부터 쉽게 분리되거나 조합될 수 있는 별개의 구성요소 및 특징을 갖는다.

본 개시내용의 예시적인 실시형태에 대한 상기 설명은 예시 및 설명의 목적으로 제시되었으며 당업자에게 본 개시내용의 실시형태를 만들고 사용하는 방법의 완전한 개시를 제공하기 위해서 제시되었다. 본 개시내용을 설명된 정확한 형태로 망라하거나 제한하고자 함이 아니며, 실험이 수행된 모든 또는 유일한 실험임을 나타내려는 의도도 아니다. 본 개시내용은 이해의 명료함을 위해 예시 및 설명의 방식으로 일부 상세하게 설명되었지만, 첨부된 청구범위의 사상 또는 범주를 벗어나지 않고 특정 변경 및 변형이 이루어질 수 있다는 것은 본 개시내용의 교시에 비추어 당업자에게 용이하게 명백하다.

따라서, 상기는 단지 본 발명의 원리를 예시한다. 당업자는 본원에 명시적으로 설명되거나 도시되지는 않았지만 본 발명의 원리를 구현하고 본 발명의 사상 및 범위 내에 포함되는 다양한 배열을 고안할 수 있음을 이해할 것이다. 또한, 본원에 인용된 모든 실시예 및 조건부 언어는 주로 독자가 그러한 구체적으로 인용된 실시예 및 조건으로 제한되지 않는 개시내용의 원리를 이해하는 데 도움을 주기 위한 것이다. 더욱이, 본 발명의 원리, 양태, 및 실시형태뿐만 아니라 이의 특정 예를 인용하는 본원의 모든 진술은 그의 구조적 및 기능적 등가물을 모두 포함하도록 의도된다. 또한, 그러한 등가물은 현재 알려진 등가물과 미래에 개발될 등가물, 즉 구조에 관계없이 동일한 기능을 수행하는 개발된 모든 요소를 모두 포함하는 것으로 의도된다. 따라서, 본 발명의 범주는 본원에 도시되고 설명된 예시적인 실시형태로 제한되는 것으로 의도되지 않는다. 오히려, 본 발명의 범주 및 사상은 첨부된 청구범위에 의해 구체화된다.

"하나(a)", "하나(an)" 또는 "상기(the)"의 인용은 특별히 다르게 표시되지 않는 한 "하나 이상"을 의미하도록 의도된다. "또는"의 사용은 구체적으로 다르게 나타내지 않는 한 "배타적인 또는"이 아니라 "포함하는 또는"을 의미하도록 의도되어 있다. "제1" 구성요소라는 언급은 반드시 제2 구성요소가 제공되어야 하는 것을 필요로 하지 않는다. 또한, "제1" 또는 "제2" 구성요소라는 언급은 명시적으로 언급되지 않는 한 언급된 구성요소를 특정 위치로 제한하지 않는다. "기초한"이라는 용어는 "적어도 부분적으로 기초한"을 의미하는 것으로 의도되어 있다.

청구범위는 선택 사항일 수 있는 요소를 제외하도록 작성될 수 있다. 이와 같이, 이 진술은 청구 요소의 인용 또는 "부정적" 제한의 사용과 관련하여 "단독", "단지" 등과 같은 배타적 용어의 사용에 대한 선행 근거로 사용하기 위한 것이다.

본원에 언급된 모든 특허, 특허 출원, 간행물 및 설명은, 각각의 개별 간행물 또는 특허가 인용되어 포함되는 것으로 구체적이고 개별적으로 제시되는 것처럼, 이들의 전문이 모든 목적을 위해서 본원에 인용되어 포함되고, 해당 간행물에서 언급하는 방법 및/또는 자료를 개시하고 기재하기 위해서 본원에 인용되어 포함된다. 그 어느 것도 선행 기술로서 인정하는 것은 아니다.

Claims

제1 염색체 영역 내에 제1 일배체형 및 제2 일배체형을 갖는, 태아를 임신한 여성으로부터 얻은 생물학적 샘플 - 생물학적 샘플은 태아 및 여성으로부터의 복수의 세포유리(cell-free) DNA 분자를 포함함 - 을 분석하는 방법으로서,
복수의 세포유리 DNA 분자에 상응하는 판독물을 제공받는 단계;
복수의 세포유리 DNA 분자의 크기를 측정하는 단계;
복수의 세포유리 DNA 분자로부터의 세포유리 DNA 분자의 제1 세트를 컷오프 값 이상의 크기를 갖는 것으로 식별하는 단계;
세포유리 DNA 분자의 제1 세트에 상응하는 판독물로부터의 제1 일배체형의 서열 및 제2 일배체형의 서열을 결정하는 단계;
복수의 세포유리 DNA 분자로부터의 세포유리 DNA 분자의 제2 세트를 제1 일배체형의 서열에 정렬하는 단계로서, 세포유리 DNA 분자의 제2 세트는 컷오프 값 미만의 크기를 갖는, 단계;
복수의 세포유리 DNA 분자로부터의 세포유리 DNA 분자의 제3 세트를 제2 일배체형의 서열에 정렬하는 단계로서, 세포유리 DNA 분자의 제3 세트는 컷오프 값 미만의 크기를 갖는, 단계;
세포유리 DNA 분자의 제2 세트를 사용하여 제1 매개변수 값을 측정하는 단계;
세포유리 DNA 분자의 제3 세트를 사용하여 제2 매개변수 값을 측정하는 단계;
제1 값을 제2 값과 비교하는 단계; 및
제1 값과 제2 값의 비교에 기초하여 제1 일배체형이 유전될 태아의 우도(likelihood)를 결정하는 단계를 포함하는, 방법.
제1항에 있어서, 컷오프 값은 600 nt인, 방법.
제1항에 있어서, 컷오프 값은 1 knt인, 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 세포유리 DNA 분자의 제1 세트에 상응하는 판독물로부터의 제1 일배체형의 서열 및 제2 일배체형의 서열을 결정하는 단계는
세포유리 DNA 분자의 제1 세트를 참조 게놈에 정렬하는 단계를 포함하는, 방법.
제1항에 있어서, 세포유리 DNA 분자의 제1 세트에 상응하는 판독물로부터의 제1 일배체형의 서열 및 제2 일배체형의 서열을 결정하는 단계는,
판독물의 제1 하위세트를 판독물의 제2 하위세트에 정렬하여 판독물 내의 유전자좌에서 상이한 대립형질을 식별하는 단계,
판독물의 제1 하위세트가 유전자좌에서 제1 대립형질을 갖는지를 결정하는 단계,
판독물의 제2 하위세트가 유전자좌에서 제2 대립형질을 갖는지를 결정하는 단계,
판독물의 제1 하위세트가 제1 일배체형에 상응하는지를 결정하는 단계, 및
판독물의 제2 하위세트가 제2 일배체형에 상응하는지를 결정하는 단계를 포함하는, 방법.
제1항 내지 제5항 중 어느 한 항에 있어서, 매개변수는 세포유리 DNA 분자의 계수치, 세포유리 DNA 분자의 크기 프로파일 또는 세포유리 DNA 분자의 메틸화 수준인, 방법.
제6항에 있어서,
매개변수는 세포유리 DNA 분자의 계수치이고,
방법은
제1 값이 제2 값보다 더 큰 경우 태아가 제2 일배체형보다 제1 일배체형을 유전받을 우도가 높다고 결정하는 단계를 더 포함하는, 방법.
제6항에 있어서,
매개변수는 세포유리 DNA 분자의 크기 프로파일이고,
방법은
세포유리 DNA 분자의 제2 세트가 세포유리 DNA 분자의 제3 세트보다 더 작은 프로파일을 특징으로 한다는 것을 나타내는, 제1 값이 제2 값보다 더 큰 경우 태아가 제2 일배체형보다 제1 일배체형을 유전받을 우도가, 높다고 결정하는 단계를 더 포함하는, 방법.
제6항에 있어서,
매개변수는 세포유리 DNA 분자의 메틸화 수준이고,
방법은
제1 값이 제2 값보다 더 작은 경우 태아가 제2 일배체형보다 제1 일배체형을 유전받을 우도가 높다고 결정하는 단계를 더 포함하는, 방법.
제1항 내지 제9항 중 어느 한 항에 있어서,
제1 값 및 제2 값을 사용하여 분리 값을 계산하는 단계;
분리 값을 컷오프 값과 비교하는 단계, 및
분리 값과 컷오프 값의 비교에 기초하여 태아 이수성의 우도를 결정하는 단계를 더 포함하는, 방법.
제10항에 있어서,
컷오프 값은 정배수성 태아를 갖는 임신한 여성으로부터의 참조 샘플로부터 결정되거나,
컷오프 값은 이수성 태아를 갖는 임신한 여성으로부터의 참조 샘플로부터 결정되거나,
컷오프 값은 이수성 태아를 가정하여 계산되는, 방법.
제1항 내지 제11항 중 어느 한 항에 있어서,
세포유리 DNA 분자의 제1 세트에 상응하는 판독물의 판독 시에 하위서열의 반복부의 수를 식별하는 단계를 더 포함하고,
여기서,
제1 일배체형의 서열을 결정하는 것은 제1 일배체형의 서열이 하위서열의 반복부의 수를 포함하는지를 결정하는 것을 포함하는, 방법.
제12항에 있어서,
하위서열의 반복부는 반복부-연관 질환과 연관되고,
방법은 태아가 반복부-연관 질환을 유전받을 우도를 결정하는 것을 더 포함하는, 방법.
태아를 임신한 여성으로부터 얻은 생물학적 샘플을 분석하는 방법으로서, 생물학적 샘플은 태아 및 여성으로부터의 복수의 세포유리 DNA 분자를 포함하며,
복수의 세포유리 DNA 분자에 상응하는 서열 판독물을 제공받는 단계;
복수의 세포유리 DNA 분자의 크기를 측정하는 단계;
복수의 세포유리 DNA 분자로부터의 세포유리 DNA 분자의 세트를 컷오프 값 이상의 크기를 갖는 것으로 식별하는 단계; 및
세포유리 DNA 분자의 세트의 세포유리 DNA 분자의 경우:
복수의 부위의 각각의 부위에서 메틸화 상태를 결정하는 단계,
메틸화 패턴을 결정하는 단계로서,
메틸화 패턴은 세포유리 DNA 분자에 상응하는 하나 이상의 서열 판독물을 사용하여 복수의 부위의 각각의 부위에서 메틸화 상태를 나타내는, 단계,
메틸화 패턴을 하나 이상의 참조 패턴과 비교하는 단계로서, 하나 이상의 참조 패턴 각각은 특정 조직 유형에 대해 결정되는, 단계; 및
메틸화 패턴을 사용하여 세포유리 DNA 분자의 기원 조직을 결정하는 단계를 포함하는, 방법.
제14항에 있어서, 컷오프 값은 600 nt인, 방법.
제14항에 있어서, 컷오프 값은 1 knt인, 방법.
제14항 내지 제16항 중 어느 한 항에 있어서,
복수의 각각의 부위의 각각의 부위에서 메틸화 상태를 결정하는 단계로서, 복수의 각각의 부위는 세포유리 DNA 분자에 상응하는, 단계,
메틸화 패턴을 결정하는 단계, 및
메틸화 패턴을 하나 이상의 참조 패턴 중 적어도 하나의 참조 패턴과 비교하는 단계에 의해서, 세포유리 DNA 분자의 세트의 각각의 세포유리 DNA 분자에 대한 기원 조직을 결정하는 단계를 더 포함하는, 방법.
제17항에 있어서,
각각의 기원 조직에 상응하는 세포유리 DNA 분자의 양을 결정하는 단계, 및
각각의 기원 조직에 상응하는 세포유리 DNA 분자의 양을 사용하여 생물학적 샘플에서 기원 조직의 분율 기여도를 결정하는 단계를 더 포함하는, 방법.
제14항 내지 제18항 중 어느 한 항에 있어서, 복수의 세포유리 DNA 분자의 크기를 측정하는 단계는,
서열 판독물을 참조 게놈에 정렬하는 단계를 포함하는 방법.
제14항 내지 제18항 중 어느 한 항에 있어서, 복수의 세포유리 DNA 분자의 크기를 측정하는 단계는,
복수의 세포유리 DNA 분자를 전장 시퀀싱하는 단계, 및
복수의 세포유리 DNA 분자의 각각의 세포유리 DNA 분자 내의 뉴클레오타이드의 수를 계수하는 단계를 포함하는, 방법.
제14항 내지 제17항 중 어느 한 항에 있어서, 복수의 세포유리 DNA 분자의 크기를 측정하는 단계는,
생물학적 샘플로부터의 복수의 세포유리 DNA 분자를 생물학적 샘플 내의 다른 세포유리 DNA 분자로부터 물리적으로 분리하는 단계로서, 다른 세포유리 DNA 분자는 컷오프 값보다 작은 크기를 갖는, 단계를 포함하는, 방법.
제14항 내지 제21항 중 어느 한 항에 있어서, 하나 이상의 참조 패턴의 참조 패턴은,
참조 조직으로부터의 DNA 분자를 사용하여 복수의 참조 부위의 각각의 참조 부위의 메틸화 밀도를 측정하는 단계,
복수의 참조 부위의 각각의 참조 부위에서의 메틸화 밀도를 하나 이상의 역치 메틸화 밀도와 비교하는 단계, 및
메틸화 밀도와 하나 이상의 역치 메틸화 밀도의 비교에 기초하여 복수의 참조 부위의 각각의 참조 부위를 메틸화된 것, 메틸화되지 않은 것 또는 정보가 없는 것으로 식별하는 단계로서, 복수의 부위는 메틸화된 것 또는 메틸화되지 않은 것으로 식별된 복수의 참조 부위인, 단계에 의해서 결정되는, 방법.
제14항 내지 제22항 중 어느 한 항에 있어서, 기원 조직은 태반인 방법.
제14항 내지 제22항 중 어느 한 항에 있어서, 기원 조직은 태아 또는 모계인 방법.
제24항에 있어서,
기원 조직은 태아이고,
방법은
서열 판독물의 서열 판독물을 참조 게놈의 제1 영역에 정렬하는 단계로서, 제1 영역은 대립형질에 상응하는 복수의 부위를 포함하고, 복수의 부위는 역치 수의 부위를 포함하는, 단계,
복수의 부위의 각각의 부위에 존재하는 각각의 대립형질을 사용하여 제1 일배체형을 결정하는 단계,
제1 일배체형을 남성 대상체에 해당하는 제2 일배체형과 비교하는 단계, 및
비교를 이용하여 남성 대상체가 태아의 아버지일 우도의 분류를 결정하는 단계를 포함하는, 방법.
제24항에 있어서,
기원 조직은 태아이고,
방법은
서열 판독물의 서열 판독물을 참조 게놈의 제1 영역에 정렬하는 단계로서, 제1 영역은 대립형질에 상응하는 제1 복수의 부위를 포함하고, 복수의 부위는 역치 수의 부위를 포함하는, 단계,
복수의 부위의 각각의 부위에서의 대립형질을 남성 대상체의 게놈 내의 상응하는 부위에서의 대립형질과 비교하는 단계, 및
비교를 이용하여 남성 대상체가 태아의 아버지일 우도의 분류를 결정하는 단계를 더 포함하는, 방법.
제24항에 있어서,
세포유리 DNA 분자의 세트의 각각의 세포유리 DNA 분자의 경우:
세포유리 DNA 분자의 서열 판독물을 참조 게놈에 정렬하는 단계,
서열 판독물을 여성에 존재하는 일배체형에 상응하는 것으로서 식별하는 단계,
메틸화 패턴을 사용하여 기원 조직을 태아로 결정하는 단계, 및
일배체형을 모계 유전된 태아 일배체형으로 결정하는 단계를 더 포함하는, 방법.
제27항에 있어서,
일배체형을 질환-유발 유전자 돌연변이 또는 변이를 보유하는 것으로서 식별하는 단계, 및
태아가 유전자 돌연변이 또는 변이로 인한 질환을 가질 가능성이 있는 것으로 분류하는 단계를 더 포함하는, 방법.
제28항에 있어서, 일배체형을 질환-유발 유전자 돌연변이를 보유하는 것으로서 식별하는 단계는,
제1 서열 판독물에서 유전자 돌연변이 또는 변이를 식별하는 단계,
제1 서열 판독물의 제1 거리 내의 제1 게놈 위치에 상응하는 제2 서열 판독물에서 제1 메틸화 수준을 측정하는 단계, 및
제1 서열 판독물의 제2 거리 내의 제2 게놈 위치에 상응하는 제3 서열 판독물에서 제2 메틸화 수준을 측정하는 단계를 포함하며,
제1 메틸화 수준 및 제2 메틸화 수준은 유전자 돌연변이와 연관되는, 방법.
제24항에 있어서,
세포유리 DNA 분자의 세트의 각각의 세포유리 DNA 분자의 경우:
세포유리 DNA 분자의 서열 판독물을 참조 게놈에 정렬하는 단계, 및
서열을 소정 영역에 상응하는 것으로서 식별하는 단계를 더 포함하되, 상기 소정 영역은,
태아 조직으로부터 복수의 태아 DNA 분자에 상응하는 복수의 태아 서열 판독물을 제공받는 단계,
복수의 모 DNA 분자에 상응하는 복수의 모 서열 판독물을 제공받는 단계,
복수의 태아 서열 판독물의 각각의 태아 서열 판독물에 대한 영역 내의 복수의 메틸화 부위의 각각의 메틸화 부위에서 태아 메틸화 상태를 결정하는 단계,
복수의 모 서열 판독물의 각각의 모 서열 판독물에 대한 복수의 메틸화 부위의 각각의 메틸화 부위에서 모 메틸화 상태를 결정하는 단계,
태아 메틸화 상태가 모 메틸화 상태와 상이한 부위의 양을 특징규명하는 매개변수의 값을 결정하는 단계,
매개변수의 값을 역치 값과 비교하는 단계, 및
매개변수의 값이 역치 값을 초과하는지를 결정하는 단계에 의해서 결정되는, 방법.
제14항 내지 제28항 중 어느 한 항에 있어서, 컷오프 값은 적어도 500 nt인, 방법.
제14항 내지 제31항 중 어느 한 항에 있어서, 세포유리 DNA 분자의 기원 조직을 결정하는 단계는 메틸화 패턴을 기계 학습 모델에 입력하는 단계를 포함하고, 모델은
복수의 훈련 메틸화 패턴을 제공받는 단계로서, 각각의 훈련 메틸화 패턴은 복수의 부위 중 하나 이상의 부위에서 메틸화 상태를 가지며, 각각의 훈련 메틸화 패턴은 알려진 조직의 DNA 분자로부터 결정되는, 단계,
복수의 훈련 샘플을 저장하는 단계로서, 각각의 훈련 샘플은 복수의 훈련 메틸화 패턴 중 하나 및 훈련 메틸화 패턴에 상응하는 알려진 조직을 나타내는 표지를 포함하는, 단계, 및
복수의 훈련 샘플을 사용하여, 복수의 훈련 메틸화 패턴이 모델에 입력될 때 상응하는 표지와 일치하거나 일치하지 않는 모델의 출력에 기초하여 모델의 매개변수를 최적화하는 단계로서, 모델의 출력은 입력 메틸화 패턴에 상응하는 조직을 명시하는 단계에 의해서 훈련되는, 방법.
제32항에 있어서, 기계 학습 모델은 컨볼루션 신경망(CNN: convolution neural networks), 선형 회귀, 로지스틱 회귀, 심층 순환 신경망, 베이지 분류(Bayes's classifier), 은폐 마르코프 모델(HMM: hidden Markov model), 선형 구별 분석(LDA: linear discriminant analysis), k-평균 클러스터링, 노이즈를 갖는 분야의 밀도 기반 공간 클러스터링(DBSCAN: density-based spatial clustering of applications with noise), 랜덤 포레스트 알고리즘 또는 서포트 벡터 머신(SVM: support vector machine)을 포함하는, 방법.
제32항에 있어서, 알려진 조직으로부터의 각각의 DNA 분자는 세포 DNA인 방법.
제32항 또는 제34항에 있어서, 모델의 매개변수는 복수의 부위 중 하나의 부위가 복수의 부위 중 또 다른 부위와 동일한 메틸화 상태를 갖는지 여부를 나타내는 제1 매개변수를 포함하는 방법.
제32항 내지 제35항 중 어느 한 항에 있어서, 모델의 매개변수는 복수의 부위의 부위 사이의 거리를 나타내는 제2 매개변수를 포함하는 방법.
제14항 내지 제31항 중 어느 한 항에 있어서, 하나 이상의 참조 패턴의 참조 패턴은 참조 조직에 상응하고,
방법은 메틸화 패턴이 참조 패턴과 일치할 때 기원 조직을 참조 조직으로 결정하는 단계를 더 포함하는, 방법.
제14항 내지 제37항 중 어느 한 항에 있어서, 복수의 부위는 적어도 5개의 CpG 부위를 포함하는, 방법.
제14항 내지 제31항 중 어느 한 항에 있어서, 메틸화 패턴을 사용하여 기원 조직을 결정하는 단계는
메틸화 패턴을 복수의 참조 조직의 제1 참조 조직으로부터의 제1 참조 메틸화 패턴과 비교하여 유사도 점수를 결정하는 단계;
상기 유사도 점수를 역치 값과 비교하는 단계; 및
상기 유사도 점수가 역치 값을 초과할 때 기원 조직이 제1 참조 조직인 것으로 결정하는 단계를 포함하는, 방법.
제39항에 있어서,
유사도 점수는 제1 유사도 점수이고,
방법은
메틸화 패턴을 복수의 참조 조직 중 제2 참조 조직으로부터의 제2 참조 메틸화 패턴과 비교함으로써 제2 유사도 점수를 결정함으로써 역치 값을 계산하는 단계를 더 포함하고, 제1 참조 조직 및 제2 참조 조직은 상이한 조직이고, 역치 값은 제2 유사도 점수인, 방법.
제39항 또는 제40항에 있어서,
제1 참조 메틸화 패턴은 제1 참조 조직에 대해 적어도 제1 메틸화 확률을 갖는 부위의 제1 하위세트를 포함하고,
제1 참조 메틸화 패턴은 제1 참조 조직에 대해 최대 제2 메틸화 확률을 갖는 부위의 제2 하위세트를 포함하고,
유사도 점수를 결정하는 단계는,
복수의 부위의 부위가 메틸화되고 복수의 부위의 부위가 부위의 제1 하위세트에 존재하는 경우 유사도 점수를 증가시키는 단계, 및
복수의 부위의 부위가 메틸화되고 복수의 부위의 부위가 부위의 제2 하위세트에 존재하는 경우 유사도 점수를 감소시키는 단계를 포함하는, 방법.
제39항 또는 제40항에 있어서,
제1 참조 메틸화 패턴은 복수의 부위를 포함하고, 복수의 부위의 각각의 부위는 제1 참조 조직에 대해 메틸화될 확률 및 메틸화되지 않을 확률을 특징으로 하고,
유사도 점수는
복수의 부위의 각각의 부위에 대해:
세포유리 DNA 분자에서 부위의 메틸화 상태에 상응하는 참조 조직의 확률을 결정하는 단계,
복수의 확률의 곱을 계산하는 단계로서, 그 곱은 유사도 점수인, 단계에 의해서 결정되는, 방법.
제42항에 있어서, 상기 확률은 베타 분포를 사용하여 결정되는, 방법.
제14항 내지 제43항 중 어느 한 항에 있어서,
복수의 세포유리 DNA 분자를 시퀀싱하여, 서열 판독물을 수득하는 단계; 및
상기 부위의 뉴클레오타이드 및 상기 부위에 인접한 뉴클레오타이드에 상응하는 특성을 측정함으로써 상기 부위의 메틸화 상태를 결정하는 단계를 포함하는, 방법.
제14항 내지 제44항 중 어느 한 항에 있어서, 복수의 세포유리 DNA 분자의 크기는 다수의 CpG 부위를 포함하는, 방법.
제14항 내지 제45항 중 어느 한 항에 있어서, 복수의 부위 중 적어도 하나의 부위는 메틸화된, 방법.
제14항 내지 제46항 중 어느 한 항에 있어서, 복수의 부위 중 2개의 부위는 적어도 160 nt만큼 분리되어 있는, 방법.
태아를 임신한 여성으로부터 얻은 생물학적 샘플을 분석하는 방법으로서, 생물학적 샘플은 태아 및 여성으로부터의 세포유리 DNA 분자를 포함하며,
세포유리 DNA 분자들의 세포유리 DNA 분자에 상응하는 제1 서열 판독물을 제공받는 단계;
제1 서열 판독물을 참조 게놈의 영역에 정렬하는 단계로서, 상기 영역은 잠재적으로 하위서열의 반복부를 포함하는 것으로 알려진, 단계;
세포유리 DNA 분자에 상응하는 제1 서열 판독물 내의 하위서열의 다수의 반복부를 식별하는 단계;
하위서열의 반복부의 수를 역치 수와 비교하는 단계; 및
반복부의 수와 역치 수의 비교를 사용하여 태아가 유전적 장애를 가질 우도의 분류를 결정하는 단계를 포함하는, 방법.
제48항에 있어서, 태아가 유전적 장애를 가질 우도의 분류를 결정하는 단계는,
반복부의 수가 역치 수를 초과할 때 태아가 유전적 장애를 가질 가능성이 있다고 결정하는 단계를 포함하는, 방법.
제48항 또는 제49항에 있어서, 역치 수는 55 이상인, 방법.
제48항 내지 제50항 중 어느 한 항에 있어서, 유전적 장애는 취약 X 증후군인, 방법.
제48항 내지 제51항 중 어느 한 항에 있어서, 하위서열은 트리뉴클레오타이드 서열인, 방법.
제48항 내지 제52항 중 어느 한 항에 있어서, 세포유리 DNA 분자는 컷오프 값보다 큰 길이를 갖는, 방법.
제53항에 있어서, 컷오프 값은 600 nt인, 방법.
제53항에 있어서, 컷오프 값은 1 knt인, 방법.
제48항 내지 제54항 중 어느 한 항에 있어서 세포유리 DNA 분자가 태아 기원이라는 것을 결정하는 단계를 더 포함하는, 방법.
제56항에 있어서,
제1 서열 판독물 내의 하위서열의 반복부의 수는 하위서열의 제1 반복부의 수이고,
세포유리 DNA 분자가 태아 기원이라는 것을 결정하는 단계는
임신 전 여성의 버피 코트 또는 샘플로부터 얻은 모체 기원의 세포유리 DNA 분자에 상응하는 제2 서열 판독물을 제공받는 단계,
제2 서열 판독물을 참조 게놈의 영역에 정렬하는 단계,
제2 서열 판독물에서 하위서열의 제2 반복부의 수를 식별하는 단계, 및
제2 반복부의 수가 제1 반복부의 수보다 낮다고 결정하는 단계를 포함하는, 방법.
제56항에 있어서,
세포유리 DNA 분자가 태아 기원이라는 것을 결정하는 단계는
세포유리 DNA 분자의 메틸화된 부위 및 메틸화되지 않은 부위를 사용하여 세포유리 DNA 분자의 메틸화 수준을 결정하는 단계, 및
상기 메틸화 수준을 참조 수준과 비교하는 단계를 포함하는, 방법.
제58항에 있어서, 상기 메틸화 수준이 참조 수준을 초과한다고 결정하는 단계를 더 포함하는, 방법.
제56항에 있어서,
세포유리 DNA 분자가 태아 기원이라는 것을 결정하는 단계는
세포유리 분자의 복수의 부위의 메틸화 패턴을 결정하는 단계,
메틸화 패턴을 모 조직 또는 태아 조직으로부터의 참조 패턴과 비교함으로써 유사도 점수를 결정하는 단계, 및
유사도 점수를 하나 이상의 역치 값과 비교하는 단계를 포함하는, 방법.
제48항에 있어서,
세포유리 DNA 분자에 상응하는 복수의 서열 판독물을 제공받는 단계;
복수의 서열 판독물을 참조 게놈의 복수의 영역에 정렬하는 단계로서, 복수의 영역은 하위서열의 잠재적으로 반복부를 포함하는 것으로 알려진, 단계,
복수의 서열 판독물에서 하위서열의 반복부의 수를 식별하는 단계;
하위서열의 반복부의 수를 복수의 역치 수와 비교하는 단계; 및
복수의 유전적 장애 각각의 경우, 복수의 역치 수의 역치 수와의 비교를 사용하여 태아가 각각의 유전적 장애를 가질 우도의 분류를 결정하는 단계를 더 포함하는, 방법.
태아를 임신한 여성으로부터 얻은 생물학적 샘플을 분석하는 방법으로서, 생물학적 샘플은 태아 및 여성으로부터의 세포유리 DNA 분자를 포함하며,
세포유리 DNA 분자들의 세포유리 DNA 분자에 상응하는 제1 서열 판독물을 제공받는 단계;
제1 서열 판독물을 참조 게놈의 제1 영역에 정렬하는 단계;
세포유리 DNA 분자에 상응하는 제1 서열 판독물 내의 제1 하위서열의 제1 반복부의 수를 식별하는 단계;
남성 대상체로부터 얻은 서열 데이터를 분석하여 제1 하위서열의 제2 반복부의 수가 제1 영역에 존재하는지 여부를 결정하는 단계; 및
제1 하위서열의 제2 반복부의 수가 존재하는지의 결정을 사용하여 대상체가 태아의 아버지일 우도의 분류를 결정하는 단계를 포함하는, 방법.
제62항에 있어서,
세포유리 DNA 분자가 태아 기원이라는 것을 결정하는 단계를 더 포함하는, 방법.
제62항 또는 제63항에 있어서, 제1 하위서열은 대립형질을 포함하는, 방법.
제62항 내지 제64항 중 어느 한 항에 있어서,
상기 분류는 제1 하위서열의 제2 반복부의 수가 존재하는 것으로 결정되는 경우 남성 대상체가 아버지일 가능성이 있다는 것이거나,
상기 분류는 제1 하위서열의 제2 반복부의 수가 존재하지 않는 것으로 결정되는 경우 남성 대상체가 아버지일 가능성이 없다는 것인, 방법.
제62항 내지 제65항 중 어느 한 항에 있어서,
제1 반복부의 수를 제2 반복부의 수와 비교하는 단계를 포함하며,
여기서,
남성 대상체가 아버지일 우도의 분류를 결정하는 단계는
제1 반복부의 수와 제2 반복부의 수의 비교를 사용하는 것을 포함하고,
상기 분류는 제1 반복부의 수가 제2 반복부의 수의 역치 값 이내인 경우 남성 대상체가 아버지일 가능성이 있다는 것인, 방법.
제62항 내지 제66항 중 어느 한 항에 있어서,
세포유리 DNA 분자는 제1 세포유리 DNA 분자이고;
방법은
세포유리 DNA 분자의 제2 세포유리 DNA 분자에 상응하는 제2 서열 판독물을 제공받는 단계;
제2 서열 판독물을 참조 게놈의 제2 영역에 정렬하는 단계;
제2 세포유리 DNA 분자에 상응하는 제1 서열 판독물 내의 제2 하위서열의 제2 반복부의 수를 식별하는 단계;
남성 대상체로부터 얻은 서열 데이터를 분석하여 제2 하위서열의 제2 반복부의 수가 제2 영역에 존재하는지 여부를 결정하는 단계를 더 포함하고,
여기서,
남성 대상체가 태아의 아버지일 우도의 분류를 결정하는 단계는 제2 하위서열의 제2 반복부의 수가 제2 영역에 존재하는지의 결정을 사용하는 것을 더 포함하는, 방법.
제62항 내지 제67항 중 어느 한 항에 있어서, 세포유리 DNA 분자는 컷오프 값보다 큰 크기를 갖는, 방법.
제68항에 있어서, 세포유리 DNA 분자는 600 nt보다 큰 크기를 갖는, 방법.
제68항에 있어서, 세포유리 DNA 분자는 1 knt보다 큰 크기를 갖는, 방법.
태아를 임신한 여성으로부터 얻은 생물학적 샘플을 분석하는 방법으로서, 생물학적 샘플은 태아 및 여성으로부터의 복수의 세포유리 DNA 분자를 포함하며,
복수의 세포유리 DNA 분자의 크기를 측정하는 단계;
컷오프 값보다 큰 크기를 갖는 세포유리 DNA 분자의 제1 양을 측정하는 단계;
제1 양을 사용하여 정규화된 매개변수의 값을 생성하는 단계;
정규화된 매개변수의 값을 하나 이상의 보정 데이터 포인트와 비교하는 단계로서, 각각의 보정 데이터 포인트는 정규화된 매개변수의 보정 값에 상응하는 재태 연령을 명시하고, 하나 이상의 보정 데이터 포인트는 재태 연령이 알려져 있고 컷오프 값보다 큰 크기를 갖는 세포유리 DNA 분자를 포함하는 복수의 보정 샘플로부터 결정되는, 단계; 및
상기 비교를 사용하여 재태 연령을 결정하는 단계를 포함하는, 방법.
제71항에 있어서,
초음파 또는 여성의 마지막 월경 날짜를 이용하여 태아의 참조 재태 연령을 결정하는 단계,
재태 연령을 참조 재태 연령과 비교하는 단계,
재태 연령과 참조 재태 연령의 비교를 사용하여 임신-연관 장애의 우도의 분류를 결정하는 단계를 더 포함하는, 방법.
제71항에 있어서,
컷오프 값보다 큰 크기를 갖는 세포유리 DNA 분자의 적어도 하나의 단부에 상응하는 제1 하위서열을 결정하는 단계를 더 포함하며,
여기서,
제1 양은 컷오프 값보다 큰 크기를 갖고 각각의 세포유리 DNA 분자의 하나 이상의 단부에 제1 하위서열을 갖는 세포유리 DNA 분자인, 방법.
제73항에 있어서, 제1 하위서열은 1, 2, 3 또는 4개의 뉴클레오타이드인, 방법.
제73항 내지 제74항 중 어느 한 항에 있어서, 정규화된 매개변수의 값을 생성하는 단계는,
(a) 컷오프 값보다 큰 크기를 갖는 세포유리 DNA 분자의 총량에 의해 제1 양을 정규화하는 단계;
(b) 컷오프 값보다 큰 크기를 갖고 제2 하위서열로 끝나는 세포유리 DNA 분자의 제2 양에 의해 제1 양을 정규화하는 단계로서, 제2 하위서열은 제1 하위서열과 상이한, 단계 또는
(c) 컷오프 값보다 작은 크기를 갖는 세포유리 DNA 분자의 제3 양에 의해 제1 양을 정규화하는 단계를 포함하는, 방법.
제71항 내지 제75항 중 어느 한 항에 있어서, 복수의 세포유리 DNA 분자에 상응하는 서열 판독물을 제공받는 단계를 더 포함하는, 방법.
태아를 임신한 여성으로부터 얻은, 태아 및 여성으로부터의 복수의 세포유리 DNA 분자를 포함하는 생물학적 샘플을 분석하는 방법으로서,
복수의 세포유리 DNA 분자의 크기를 측정하는 단계;
컷오프 값보다 큰 크기를 갖는 세포유리 DNA 분자의 제1 양을 측정하는 단계;
제1 양을 사용하여 정규화된 제1 매개변수 값을 생성하는 단계;
건강한 임신에 대한 정규화된 매개변수의 기대값에 상응하는 제2 값을 얻는 단계로서, 제2 값은 태아의 재태 연령에 좌우되는, 단계;
정규화된 제1 매개변수 값과 정규화된 제2 매개변수 값 사이의 편차를 결정하는 단계; 및
편차를 사용하여 임신-연관 장애의 우도의 분류를 결정하는 단계를 포함하는, 방법.
제77항에 있어서, 제2 값을 얻는 단계는,
임신한 여성의 측정값을 정규화된 매개변수의 보정 값과 관련시킨 보정 표로부터 제2 값을 얻는 단계를 포함하며, 보정 표는
재태 연령을 임신한 여성 대상체의 측정값과 관련시킨 제1 표를 얻는 단계,
재태 연령을 정규화된 매개변수의 보정 값과 관련시킨 제2 표를 얻는 단계, 및
측정 값을 제1 표 및 제2 표로부터의 보정 값과 관련시킨 보정 표를 생성하는 단계에 의해서 생성되는, 방법.
제78항에 있어서, 임신한 여성 대상체의 측정값은 마지막 월경 기간 이후의 시간인, 방법.
제78항에 있어서, 임신한 여성 대상체의 측정값은 임신한 여성 대상체의 영상의 특징인, 방법.
제80항에 있어서, 영상의 특징은 여성 대상체의 태아의 길이, 크기, 외모 또는 해부학적 구조를 포함하는, 방법.
제72항 내지 제81항 중 어느 한 항에 있어서, 임신-연관 장애는 자간전증, 자궁내 성장 제한, 칩습 태반, 조산, 신생아의 용혈성 질환, 태반 기능부전, 태아 수종, 태아 기형, 용혈, 간 효소 상승 및 저혈소판 수치(HELLP) 증후군 또는 전신 홍반성 루푸스를 포함하는, 방법.
제71항 내지 제82항 중 어느 한 항에 있어서, 컷오프 값은 600 nt 이상인, 방법.
제71항 내지 제82항 중 어느 한 항에 있어서, 컷오프 값은 1,000 nt 이상인, 방법.
제71항 내지 제84항 중 어느 한 항에 있어서, 제1 양은 수 또는 빈도인, 방법.
제71항 내지 제85항 중 어느 한 항에 있어서, 제1 양을 사용하여 정규화된 매개변수의 값을 생성하는 단계는,
컷오프 값보다 작은 크기를 포함하는 세포유리 DNA 분자의 제2 양을 측정하는 단계; 및
제1 양과 제2 양의 비율을 계산하는 단계를 포함하는, 방법.
제86항에 있어서,
컷오프 값은 제1 컷오프 값이고,
제2 컷오프 값은 제1 컷오프 값보다 작고,
제2 양은 제2 컷오프 값보다 작은 크기를 갖는 세포유리 DNA 분자를 포함하거나, 제2 양은 복수의 세포유리 DNA 분자 내의 모든 세포유리 DNA 분자를 포함하는, 방법.
태아를 임신한 여성으로부터 얻은, 태아 및 여성으로부터의 복수의 세포유리 DNA 분자를 포함하는 생물학적 샘플을 분석하는 방법으로서,
복수의 세포유리 DNA 분자의 크기를 측정하는 단계;
컷오프 값보다 큰 크기를 갖는 세포유리 DNA 분자의 세트를 식별하는 단계;
제1 양을 사용하여 단부 모티프 매개변수의 값을 생성하는 단계로서, 단부 모티프 매개변수의 값을 생성하는 단계는
상기 세트 내의 세포유리 DNA 분자의 하나 이상의 단부에 제1 하위서열을 갖는 상기 세트 내의 세포유리 DNA 분자의 제1 양을 측정하는 것을 포함하는, 단계;
단부 모티프 매개변수의 값을 역치 값과 비교하는 단계, 및
상기 비교를 사용하여 임신-연관 장애의 우도의 분류를 결정하는 단계를 포함하는, 방법.
제88항에 있어서,
세포유리 DNA 분자의 하나 이상의 단부에서 제1 하위서열과 상이한 하위서열을 갖는 세포유리 DNA 분자의 제2 양을 측정하는 단계를 더 포함하고,
여기서,
단부 모티프 매개변수의 값을 생성하는 단계는 제1 양과 제2 양의 비를 사용하는 것을 포함하는, 방법.
제88항에 있어서, 제1 하위서열은 1, 2, 3 또는 4개의 뉴클레오타이드 길이인, 방법.
제90항에 있어서, 제1 하위서열은 각각의 세포유리 DNA 분자의 단부에 있는 마지막 뉴클레오타이드를 포함하는, 방법.
제88항에 있어서,
역치 값은 제1 역치 값이고,
단부 모티프 매개변수는 제1 단부 모티프 매개변수이고,
방법은
세포유리 DNA 분자의 하나 이상의 단부에서 제1 하위서열과 상이한 제2 하위서열을 갖는 세포유리 DNA 분자의 제2 양을 측정하는 단계,
제3 양을 사용하여 제2 단부 모티프 매개변수의 값을 생성하는 단계, 및
제2 단부 모티프 매개변수의 값을 제2 역치 값과 비교하는 단계를 더 포함하고,
여기서,
임신-연관 장애의 우도의 분류를 결정하는 것은 제2 단부 모티프 매개변수의 값과 제2 역치 값의 비교를 사용하고, 임신-연관 장애는 제1 단부 모티프 매개변수의 값이 첫 번째 역치 값을 초과하고 제2 단부 모티프 매개변수의 값이 두 번째 역치 값을 초과할 때 발생할 가능성이 있는, 방법.
제88항에 있어서, 세포유리 DNA 분자의 제1 양은 기원 조직으로부터 유래된다고 결정된 세포유리 DNA 분자를 포함하는, 방법.
제88항에 있어서,
역치 값은 제1 역치 값이고,
세포유리 DNA 분자의 세트는 세포유리 DNA 분자의 제1 세트이고,
방법은
제1 크기 범위의 크기를 갖는 세포유리 DNA 분자의 제2 세트를 식별하는 단계로서, 제1 크기 범위는 컷오프 값보다 큰 크기를 포함하는, 단계,
제2 세트에서 세포유리 DNA 분자의 제2 양을 사용하여 크기 매개변수의 값을 생성하는 단계, 및
크기 매개변수의 값을 제2 역치 값과 비교하는 단계를 더 포함하고,
임신-연관 장애의 우도의 분류를 결정하는 단계는 크기 매개변수의 값과 제2 역치 값의 비교를 사용하는 것을 포함하는, 방법.
제88항 내지 제94항 중 어느 한 항에 있어서, 컷오프 값은 600 nt인, 방법.
제88항 내지 제94항 중 어느 한 항에 있어서, 컷오프 값은 1,000 nt인, 방법.
복수의 세포유리 핵산 분자를 포함하는, 임신한 유기체의 생물학적 샘플을 분석하는 방법으로서,
복수의 세포유리 핵산 분자를 시퀀싱하는 단계를 포함하고, 시퀀싱된 복수의 세포유리 핵산 분자 중 20% 초과는 200 nt 초과의 길이를 갖는, 방법.
제97항에 있어서, 시퀀싱은 단일 분자, 실시간 기술에 의해서 수행되는, 방법.
제97항 또는 제98항에 있어서,
시퀀싱된 복수의 세포유리 핵산 분자 중 11% 초과가 400 nt 초과의 길이를 갖거나,
시퀀싱된 복수의 세포유리 핵산 분자 중 10% 초과가 500 nt 초과의 길이를 갖거나,
시퀀싱된 복수의 세포유리 핵산 분자 중 8% 초과가 600 nt 초과의 길이를 갖거나,
시퀀싱된 복수의 세포유리 핵산 분자 중 6% 초과가 1 knt 초과의 길이를 갖거나,
시퀀싱된 복수의 세포유리 핵산 분자 중 3% 초과가 2 knt 초과의 길이를 갖거나,
시퀀싱된 복수의 세포유리 핵산 분자 중 1% 초과가 3 knt 초과의 길이를 갖거나,
시퀀싱된 복수의 세포유리 핵산 분자 중 적어도 0.9%가 4 knt 초과의 길이를 갖거나,
시퀀싱된 복수의 세포유리 핵산 분자 중 적어도 0.04%가 10 knt 초과의 길이를 갖는, 방법.
제97항 내지 제99항 중 어느 한 항에 있어서, 복수의 세포유리 핵산 분자는 적어도 100개의 세포유리 핵산 분자를 포함하는, 방법.
제97항 내지 제100항 중 어느 한 항에 있어서, 복수의 세포유리 핵산 분자는 복수의 상이한 게놈 영역으로부터 유래되는, 방법.
제97항 내지 제101항 중 어느 한 항에 있어서, 시퀀싱은 제1항 내지 제94항 중 어느 한 항에 사용된 판독물을 생성하는, 방법.
제97항 내지 제101항 중 어느 한 항에 있어서, 시퀀싱은 판독물을 생성하고,
방법은
판독물을 사용하여 태아 이수성, 이상, 유전자 돌연변이 또는 변이 또는 부모 일배체형의 유전을 결정하는 단계를 더 포함하는, 방법.
제1항 내지 제103항 중 어느 한 항에 있어서,
복수의 세포유리 DNA 분자는 생물학적 샘플에 비해서 컷오프 값 이상의 크기가 농축되어 있고, 생물학적 샘플에서 세포유리 핵산 분자 중 20% 초과는 200 nt보다 큰 크기를 갖는, 방법.
제104항에 있어서,
전기영동법을 사용하여 복수의 세포유리 DNA 분자를 농축하는 단계를 더 포함하는, 방법.
제104항에 있어서,
크기에 기초하여 세포유리 DNA 분자에 선택적으로 결합하는 자성 비드를 사용하여 복수의 세포유리 DNA 분자를 농축하는 단계를 더 포함하는, 방법.
제104항에 있어서,
혼성화, 면역침전, 증폭 또는 CRISPR을 사용하여 복수의 세포유리 DNA 분자를 농축하는 단계를 더 포함하는, 방법.
제105항 내지 제107항 중 어느 한 항에 있어서, 농축은 600 nt, 700 nt, 800 nt, 900 nt 또는 1 knt 초과의 크기를 위한 것인, 방법.
제1항 내지 제103항 중 어느 한 항에 있어서, 복수의 세포유리 DNA 분자는 생물학적 샘플에 비해서 메틸화 프로파일을 위해서 농축되어 있고,
방법은
면역침전을 사용하여 복수의 세포유리 DNA 분자를 농축하는 단계를 더 포함하는, 방법.
실행될 때 컴퓨터 시스템을 제어하여 제1항 내지 제109항 중 어느 한 항의 방법을 수행하게 하는 명령어를 포함하는 컴퓨터 프로그램 제품.
제110항의 컴퓨터 프로그램 제품을 포함하는 컴퓨터 판독 가능 저장 매체.
제111항의 컴퓨터 프로그램 제품을 포함하는 컴퓨터 시스템.