KR20200085144A

KR20200085144A - 모체 시료 중 태아 분획을 결정하는 방법

Info

Publication number: KR20200085144A
Application number: KR1020190001306A
Authority: KR
Inventors: 김선신; 배진한; 곽환종; 이성훈; 김강석; 황동엽
Original assignee: 테라젠지놈케어 주식회사
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2020-07-14
Also published as: EP3907739A4; WO2020141722A1; EP3907739A1; KR102287096B1; US20220101947A1

Abstract

태아 분획을 결정하는 방법, 및 이를 수행하기 위해 적용되는 프로그램을 기록한 컴퓨터 판독 매체를 제공한다. 이에 의하면, 기존의 정해진 염색체 구간(50 kb)과 다른 최적의 구간에서 태아 분획을 추정하였을 때 태아 분획을 더 정확하게 결정할 수 있다. 이에 의해 동일한 훈련 데이터 크기(training sample size)를 이용하여 더 높은 정확도의 태아 분획의 측정이 가능하다.

Description

모체 시료 중 태아 분획을 결정하는 방법{Method for determining fetal fraction in maternal sample}

임산부로부터 유래된 생물학적 시료에서 태아 분획을 결정하는 방법 및 이와 관련된 소프트웨어에 관한 것이다.

산전 진단(prenatal diagnosis)은 태아가 태어나기 전에 태아의 질병 유무를 진단하는 것을 말한다. 산전 진단은 크게 침습적 진단 검사와 비침습적 산전 진단 검사(Non-Invasive Prenatal Test: NIPT)로 나뉜다. 침습적 진단 검사는 예를 들어 융모막 검사, 양수천자, 및 탯줄천자 등이 있다. 침습적 진단 검사는 검사 과정에서 태아에게 충격을 가하여 유산 및 질병 등을 유발할 가능성이 있어서, 비침습적 진단 검사 방법들이 개발되고 있다.

최근에는 임산부의 혈장 중 DNA 분자들을 대규모 병렬 시퀀싱함으로써 태아 염색체이수성의 비침습적 진단이 실행가능하다는 것이 입증되었다. 태아 DNA는 모체 혈장 및 혈청에서 임신 7주차부터 검출될 수 있고, 모체 혈액 중 태아 DNA의 양은 임신 기간에 따라 증가한다. 모체 혈액으로부터 분리된 세포-유리 DNA(cell-free DNA: cfDNA) 중 태아 DNA의 비율을 태아 핵산의 분획 또는 태아 분획(fetal fraction)이라고 한다. 태아 분획이 작을수록 염색체 이수성의 진단 오류가 높아지므로, 태아 분획은 비침습적 산전 진단 검사의 정확도에 영향을 미칠 수 있다.

태아 분획을 측정하는 방법과 관련하여, SNP-기반 방법은 정확도가 높지만 유전자형 분석에 많은 비용이 필요한 문제가 있고(Jiang P. et al., Bioinformatics, 2012, vol.28, pp.2883-2890), Y 염색체-기반 방법은 방법이 단순하지만 남자 태아에 한해 적용된다는 문제가 있다(Hudecova I. et al., PloS one, 2014, vol.9, p.e88484). 또한, 머신 러닝(Machine Learning)은 추가적인 비용이 없다는 장점이 있지만, 약 25,000여개에 해당하는 대량의 훈련 샘플(training sample) 및 고도의 컴퓨팅 파워가 필요하고 핵산 단편의 서열정보(reads)개수와 같은 여러 요인들에 따라 각기 다른 결과를 산출할 수 있는 문제점이 있다(Kim et al., Prenatal diagnosis, 2015, vol.35, pp.810-815; Johansen P. et al., Prenatal diagnosis, 2016, vol.36, pp.530-536).

따라서, 추가적이 비용이 없을 뿐만 아니라, 적은 훈련 샘플 및 낮은 컴퓨팅 파워로 정확도가 우수하게 태아 분획을 추정하는 방법을 개발할 필요가 있다.

태아 분획을 결정하는 방법을 제공한다.

태아 분획을 결정하는 방법을 수행하기 위해 적용되는 프로그램을 기록한 컴퓨터 판독 매체를 제공한다.

일 양상은 임신한 여성의 생물학적 시료에서 태아 분획(fetal fraction)을 결정하는 방법으로서,

임신한 여성의 생물학적 시료로부터 복수의 핵산 단편의 서열정보(reads)를 수득하여 테스트 데이터를 생성하는 단계;

참조 염색체를 기준으로 일정한 구간(bin)으로 나눈 염색체 구간을 설정하는 단계;

훈련 데이터로부터 파라미터를 산출하는 단계;

산출된 파라미터를 이용하여 상기 테스트 데이터로부터 태아 분획을 산출하는 단계;

참조 염색체를 기준으로 구간의 크기를 증가시키면서 파라미터를 산출하는 단계 및 태아 분획을 산출하는 단계를 반복하여, 산출된 태아 분획과 표준 태아 분획간의 상관관계가 높은 구간을 선정하는 단계;

선정된 구간에서 훈련 데이터의 크기를 증가시키면서 산출된 태아 분획과 표준 태아 분획간의 상관관계가 증가된 제2 파라미터를 산출하는 단계; 및

산출된 제2 파라미터를 이용하여 상기 테스트 데이터로부터 태아 분획을 산출하는 단계를 포함하는 방법을 제공한다.

용어 "태아 분획(fetal fraction)" 또는 "태아 핵산의 분획(fraction of fetal nucleic acids)"은 임신한 여성의 생물학적 시료로부터 분리된 핵산 중 태아 핵산의 양을 말한다. 상기 태아 분획은 태아 핵산의 농도, 상대적 비율, 또는 절대적 양일 수 있다. 상기 태아 핵산은 태반 영양막세포(fetal placenta trophoblast)로부터 유래된 핵산일 수 있다.

상기 방법은 임신한 여성의 생물학적 시료로부터 복수의 핵산 단편의 서열정보(reads)를 수득하여 테스트 데이터를 생성하는 단계를 포함한다.

상기 생물학적 시료는 혈액, 혈장, 혈청, 소변, 타액, 점막 분비물, 객담, 대변, 눈물, 또는 이들의 조합일 수 있다. 상기 생물학적 시료는 예를 들어 말초혈액의 혈장이다. 상기 생물학적 시료는 모체 유래 핵산 및 태아 유래 핵산을 포함할 수 있다. 상기 핵산은 세포 유리 DNA(cell-free DNA: cfDNA)일 수 있다.

상기 복수의 핵산 단편의 서열정보를 수득하여 테스트 데이터를 생성하는 단계는 생물학적 시료로부터 세포 유리 DNA(cell-free DNA: cfDNA)를 분리하는 단계를 포함할 수 있다. 상기 생물학적 시료로부터 핵산 또는 세포 유리 DNA를 분리하는 방법은 당업자에게 공지된 방법으로 수행될 수 있다. 상기 분리된 핵산 단편의 길이는 약 10 bp(염기쌍) 내지 약 2000 bp, 약 15 bp 내지 약 1500 bp, 약 20 bp 내지 약 1000 bp, 약 20 bp 내지 약 500 bp, 약 20 bp 내지 약 200 bp, 또는 약 20 bp 내지 약 100 bp일 수 있다.

상기 임신한 여성으로부터 수득된 생물학적 시료로부터 복수의 핵산 단편의 서열정보를 수득하여 테스트 데이터를 생성하는 단계는 분리된 핵산을 대규모 병렬 시퀀싱(massive parallel sequencing)을 수행하는 단계를 포함할 수 있다. 용어 "대규모 병렬 시퀀싱(massive parallel sequencing)"은 차세대 시퀀싱(next-generation sequencing: NGS) 또는 2세대 시퀀싱(second-generation sequencing)과 상호 교환적으로 사용될 수 있다. 대규모 병렬 시퀀싱은 수백만개의 단편의 핵산을 동시다발적으로 시퀀싱하는 기법을 말한다. 대규모 병렬 시퀀싱은 예를 들어, 454 플랫폼(Roche), GS FLX 티타늄, Illumina MiSeq, Illumina HiSeq, Illumina Genome Analyzer, Solexa platform, SOLiD System(Applied Biosystems), Ion Proton(Life Technologies), Complete Genomics, Helicos Biosciences Heliscope, Pacific Biosciences의 단일 분자 실시간(SMRT™) 기술, 또는 이들의 조합에 의해 병렬 방식으로 수행될 수 있다.

상기 수득된 핵산 단편의 서열정보는 리드(reads)로도 불릴 수 있다.

용어 "시퀀싱 커버리지(sequencing coverage)"는 시퀀싱 깊이(sequencing depth)로도 불리고, 대규모 병렬 시퀀싱을 통해 재구성된 서열에서 해당 뉴클레오티드를 포함하는 판독 횟수를 말한다. 시퀀싱 오류와 실제 뉴클레오티드 다형성(nucleotide polymorphism)을 구분하기 위해서는 개개의 유전체를 여러번 시퀀싱하여 시퀀싱의 정확도를 증가시켜야 한다. 시퀀싱 커버리지는 시퀀싱되는 서열정보의 평균 횟수일 수 있다. 시퀀싱 커버리지는 (리드의 길이 x 리드의 개수)/반수체의 유전체 길이(haploid genome length)의 수학식에 의해 산출될 수 있다. 상기 수득된 서열정보의 시퀀싱 커버리지(sequencing coverage)는 약 0.001 내지 약 3.5, 약 0.003 내지 약 3.5, 약 0.005 내지 약 3.5, 약 0.007 내지 약 2.5, 약 0.01 내지 약 2.5, 약 0.015 내지 약 1.5, 약 0.02 내지 약 1.5, 약 0.025 내지 약 1.5, 약 0.01 내지 약 1.2, 약 0.01 내지 약 1.2, 또는 약 0.01 내지 약 1.0일 수 있다.

상기 방법은 참조 염색체를 기준으로 일정한 구간(bin)으로 나눈 염색체 구간을 설정하는 단계를 포함한다.

상기 참조 염색체는 인간 참조 염색체일 수 있다. 인간 참조 유전체는 hg18 또는 hg19일 수 있다. 인간 참조 유전체에서 하나의 게놈 위치에만 맵핑되는 서열정보를 고유한(unique) 서열정보로 지정할 수 있다. 지정된 고유한 서열번호를 기준으로 핵산 단편의 서열정보를 염색체의 위치에 지정할 수 있다. 상기 염색체의 위치는 약 5 kb 이상, 약 10 kb 이상, 약 20 kb 이상, 약 50 kb 이상, 약 100 kb 이상, 약 1000 kb 이상, 또는 2000 kb 이상의 길이를 갖는 염색체 상의 연속적인 범위일 수 있다. 상기 염색체 위치는 단일 염색체일 수 있다.

상기 핵산 단편의 서열정보를 염색체에 지정하는 단계 후에, 염색체에 지정된 상기 핵산 단편의 서열정보의 두께 분포를 구간별로 확인하여 서열정보에 대한 신뢰도가 낮은 구간을 분석대상에서 제외하는 단계를 더 포함할 수 있다.

상기 핵산 단편의 서열정보를 염색체에 지정하는 단계 후에, 염색체에 지정된 상기 핵산 단편의 서열정보의 두께 분포를 구간별로 확인하여 서열정보에 대한 신뢰도가 낮은 구간을 분석대상에서 제외하는 단계를 더 포함할 수 있다. 상기 구간은 약 5 kb 내지 약 260000 kb 단위로 설정된 구간일 수 있다. 예를 들어 상기 구간은 약 100 kb 내지 약 200000 kb, 약 1000 kb 내지 약 150000 kb, 또는 약 10000 kb 내지 약 100000 kb로 설정된 구간일 수 있다. 상기 구간을 설정함으로써 염색체에 지정된 핵산 단편의 서열정보의 두께(depth) 및 GC 함량의 집단을 형성할 수 있고, 통계적인 분석이 가능할 수 있다.

상기 서열정보에 대한 신뢰도가 낮은 구간을 분석대상에서 제외하는 단계는 미스매치(mismatch) 부분을 제거하거나, 복수의 부위에 지정되는 서열정보를 제거하거나, 중복적인 서열정보를 제거하거나, 또는 이들의 조합을 포함할 수 있다. 서열정보에 대한 신뢰도가 낮은 구간을 분석대상에서 제외하기 위해, 퀄리티 필터링(quality filtering), 트리밍(trimming), 퍼펙트 매치(perfect match), 여러 군데(multi)에 지정되는 서열들의 제거, PCR 중복 서열정보(PCR duplicated reads)의 제거, 또는 이들의 조합을 수행할 수 있다. 상기 퍼펙트 매치는 인간 참조 유전체에 맵핑할 경우 완벽히 매치되는 염기서열들만 선택하는 것이다. 여러 군데에 지정되는 서열들은 반복 서열 영역일 가능성이 크기 때문에 수득된 서열정보로부터 여러군데(multi)에 지정되는 서열을 제거할 수 있다. PCR 중복 서열정보를 제거하는 것은 시퀀싱 과정 중 오류로 증폭이 더 많이 된 부분을 제거하는 것이다. 또한, 통계적으로 분석하기 위해 어느 정도 편차가 고른 집단을 선택해야 유의한 결과를 얻을 수 있다. 두께가 없는 부분은 대개 염색체의 N-영역이므로 분석대상에서 제거할 수 있다.

상기 방법은 상기 핵산 단편의 서열정보를 염색체에 지정하는 단계 후에, 상기 핵산 단편의 서열정보를 하기 식1에 따라 국소 가중 평균 산점도 평활(locally weighted scatterplot smoothing: LOWESS 또는 LOESS) 회귀분석을 수행하여 GC 함량의 편향을 감소시키는 단계를 더 포함할 수 있다:

(식 1).

GC 함량의 편향은 GC 편향(bias)이라고도 한다. GC 함량의 편향은 시퀀싱된 서열정보의 실제 GC 함량과 표준 서열에 기초한 예측된 GC 함량 간의 차이를 말한다. GC 함량의 편향으로 인해 각 구간의 리드의 개수가 불균등하게 될 수 있다.

상기 식 1에서, Rf_ij'는 보정된 시료 i의 염색체 구간 j에서 리드의 비율이고, RC_ij는 시료 i의 염색체 구간 j에서 보정된 고유한 리드 개수이며, K는 상염색체(autosomal chromosome)에서 분할된 구간의 최대 값이다.

상기 방법은 염색체에 지정된 핵산 단편의 서열정보에 근거하여, 핵산 단편의 개수에 대한 염색체 구간에서 핵산 단편의 서열정보의 비율(fraction of reads: Rf) 및 GC 함량을 산출하는 단계를 포함한다.

상기 핵산 단편의 서열정보의 비율(fraction of reads: Rf)은 리드 비율(read ratio)로도 불린다. 상기 Rf는 분석 대상인 핵산 단편의 개수에 대한 피검 시료 및 염색체 구간에 대한 핵산 단편의 개수의 비를 말한다.

상기 GC 함량은 DNA를 이루는 염기 중에서 구아닌(G)과 시토신(C)이 차지하는 비율(%)을 나타낸다. 상기 GC 함량은 GC 함량=(G+C)/(A+T+G+C)의 식으로부터 산출될 수 있다.

상기 염색체 구간은 약 5 kb 내지 약 260000 kb 단위로 설정된 구간일 수 있다. 예를 들어, 상기 염색체 구간은 약 100 kb 내지 약 200000 kb, 약 1000 kb 내지 약 150000 kb, 약 10000 kb 내지 약 100000 kb, 약 100 kb 내지 약 150000 kb, 약 100 kb 내지 약 100000 kb, 약 100 kb 내지 약 10000 kb, 약 100 kb 내지 약 1000 kb, 약 100 kb 내지 약 1000 kb, 약 100 kb 내지 약 900 kb, 약 100 kb 내지 약 800 kb, 약 200 kb 내지 약 800 kb, 약 300 kb 내지 약 800 kb, 약 300 kb 내지 약 700 kb, 약 300 kb 내지 약 600 kb, 약 300 kb 내지 약 500 kb, 약 300 kb 내지 약 400 kb, 약 400 kb 내지 약 800 kb, 약 500 kb 내지 약 800 kb, 약 600 kb 내지 약 800 kb, 또는 약 700 kb 내지 약 800 kb이다.

상기 방법은 훈련 데이터로부터 파라미터를 산출하는 단계를 포함한다.

용어 "훈련 데이터(training data)"는 머신 러닝(machine learning) 또는 기계 학습 모델에서 학습을 위해 이용되는 데이터세트를 말한다. 상기 훈련 데이터는 테스트 데이터와 동일한 성별의 태아 시료이거나, 또는 다른 성별의 태아 시료로부터 유래된 서열정보일 수 있다.

상기 파라미터는 리드 개수(read count), 리드 크기(read size 또는 read length), 또는 이들의 조합인 것일 수 있다. 상기 리드 개수는 리드 개수의 비율일 수 있다. 상기 리드 크기는 리드 크기의 비율일 수 있다. 상기 서열정보 즉 리드의 크기는 태아와 산모가 서로 다를 수 있다. 산모의 리드 크기가 태아의 리드 크기보다 더 큰 것으로 알려져 있기 때문에, 각 구간 내에서 리드 크기의 비율은 태아의 서열정보의 특징으로 나타낼 수 있다. 이때 산모와 태아의 서열정보 단편의 길이를 구분하는 기준은 약 50 bp 내지 약 300 bp, 약 50 bp 내지 약 250 bp, 약 50 bp 내지 200 bp, 약 50 bp 내지 약 150 bp, 또는 약 50 bp 내지 약 100 bp일 수 있다. 산모의 리드와 태아의 리드 개수는 각 참조 염색체 위치에 따라 분포가 다를 수 있다. 태아의 리드는 산모의 태반에서 유래하기 때문에, 염색체의 특정영역에서 산모의 리드보다 더 많은 리드가 분포할 수 있다.

상기 트레이닝 데이터로부터 파라미터를 산출하는 단계는 기계 학습(machine learning) 방법에 의해 트레이닝 데이터를 훈련시키는 것일 수 있다. 트레이닝 데이터를 훈련시키는 것은 다변량 회귀(Multivariate Regression) 모델, 심층 학습(deep learning) 알고리즘, 또는 이들의 조합으로 수행될 수 있다. 이는 R 팩키지 cv.glmnet, Tensorflow, 또는 이들의 조합의 오픈 소스 소프트웨어 라이브러리(open-source software library)를 이용하여 수행될 수 있다.

상기 트레이닝 데이터로부터 파라미터를 산출하는 단계는 트레이닝 데이터의 태아 분획을 측정하는 단계; 및 측정된 태아 분획으로부터 파라미터를 산출하는 단계를 포함할 수 있다.

상기 트레이닝 데이터로부터 파라미터를 산출하는 단계는 하기 다변량 회귀(Multivariate Regression) 식에 따라 산출될 수 있다:

.

상기 식에서, 여태아 샘플을 트레이닝 데이터로 이용할 경우, Y는 여태아인 경우 SNP-기반으로 측정한 태아 분획일 수 있다. 남태아 샘플을 트레이닝 데이터로 이용할 경우, 남태아인 경우 SNP-기반 또는 염색체 Y를 이용하여 측정한 태아 분획일 수 있다. 상기 식에서, β₀는 절편(intercept)이고, β_1~K는 회귀 계수(regression coefficient)이고, K는 상염색체(autosomal chromosome)의 염색체 구간의 최대값이고, X_i는 구간 i에서 리드 개수 비율 또는 리드 크기 비율을 정규화한 값이고, e는 잔류 표준 편차(residual standard deviation)일 수 있다. 상기 절편 및 계수를 추정하기 위해, R 패키지에서 교차-검증(cross-validation)을 지원하는 cv.glmnet를 실행할 수 있다.

상기 태아 분획은 리드 개수를 이용하여 산출된 태아 분획과 리드 크기를 이용하여 산출된 태아 분획의 평균값일 수 있다.

다른 양상은 임신한 여성의 생물학적 시료에서 태아 분획을 결정하는 방법으로서,

임신한 여성의 생물학적 시료로부터 복수의 핵산 단편의 서열정보를 수득하여 테스트 데이터를 생성하는 단계;

참조 염색체를 기준으로 100 kb 내지 900 Kb의 염색체 구간을 설정하는 단계;

훈련 데이터로부터 파라미터로서 리드 개수, 리드 크기, 또는 이들의 조합을 산출하는 단계; 및

산출된 파라미터를 이용하여 상기 테스트 데이터로부터 태아 분획을 산출하는 단계를 포함하는 방법을 제공한다.

상기 방법에서 파라미터가 리드 개수인 경우, 상기 염색체 구간은 약 100 kb 내지 약 800 kb, 약 100 kb 내지 약 700 kb, 약 100 kb 내지 약 600 kb, 약 100 kb 내지 약 400 kb, 약 100 kb 내지 약 300 kb, 약 200 kb 내지 약 800 kb, 또는 약 300 kb 내지 약 800 kb일 수 있다.

상기 방법에서 파라미터가 리드 크기인 경우, 상기 염색체 구간은 약 200 kb 내지 약 900 kb, 약 300 kb 내지 약 900 kb, 약 400 kb 내지 약 900 kb, 약 500 kb 내지 약 900 kb, 약 600 kb 내지 약 900 kb, 약 700 kb 내지 약 900 kb, 약 700 kb 내지 약 800 kb, 또는 약 800 kb 내지 약 900 kb일 수 있다.

다른 양상은 일 양상에 따른 방법을 수행하기 위해 적용되는 프로그램을 기록한 컴퓨터 판독 매체를 제공한다. 상기 컴퓨터 판독 매체는 컴퓨터 판독 매체를 포함하는 시스템을 포괄한다.

일 양상에 따른 태아 분획을 결정하는 방법, 및 이를 수행하기 위해 적용되는 프로그램을 기록한 컴퓨터 판독 매체에 의하면, 기존의 정해진 염색체 구간(50 kb)과 다른 최적의 구간에서 태아 분획을 추정하였을 때 태아 분획을 더 정확하게 결정할 수 있다. 이에 의해 동일한 훈련 데이터 크기(training sample size)를 이용하여 더 높은 정확도의 태아 분획의 측정이 가능하다.

도 1은 일 양상에 따른 맞춤 기계학습에 의한 태아 분획 측정법의 모식도이다.
도 2는 SeqFF를 이용하여 산출된, 테스트 샘플 크기와 표준 태아 분획의 상관관계 분포를 나타낸 그래프이다(x 축: 테스트 표본 크기, y 축: 테스트 표본 크기와 표준 태아 분획 간의 피어슨 상관계수).
도 3은 남태아 훈련 샘플 1000개와 남태아 테스트 샘플 117개를 이용하여 각각의 상염색체 분할 구간 크기에 따라 산출한 태아 분획을 Y 염색체 기반의 태아 분획과 비교한 피어슨 상관관계 분포를 나타내는 그래프이다(x 축: 구간 크기, y 축: 피어슨 상관계수).
도 4a, 4b, 및 4c는 남태아 훈련 샘플 1000개와 여태아 테스트 샘플 45개를 이용하여 각각의 상염색체 분할 구간을 다르게 하여 산출한 여태아 분획을 SNP 기반의 표준 태아 분획과 비교한 피어슨 상관관계 분포를 나타내는 그래프이다(x 축: 구간 크기, y 축: 피어슨 상관계수).
도 5는 훈련 샘플을 2000개에서 5000개로 증가시키고, 염색체 구간의 크기를 50 kb 또는 300 kb로 한 경우 피어슨 상관관계 분포를 나타낸 그래프이다(x 축: 훈련 샘플의 크기, y 축: 피어슨 상관계수).
도 6은 리드의 크기(read size) 비율을 이용하여 추정된 태아 분획과 SNP 기반 표준 태아 분획을 비교한 피어슨 상관관계 분포를 나타내는 그래프이다(x 축: 구간 크기, y 축: 피어슨 상관계수).
도 7a 및 7b는 상염색체 분할 구간을 300 kb로 한 경우, 훈련 샘플의 크기를 증가시키면서 리드 개수를 이용하여 계산한 태아 분획, 리드 길이를 이용하여 계산한 태아 분획, 및 두 태아 분획의 평균값에 대한 피어슨 상관관계 분포를 나타내느 그래프이다(도 7a: 여태아 45개 테스트 샘플, 도 7b: 남태아 45개 테스트 샘플, x 축: 훈련 샘플 크기, y 축: 피어슨 상관계수).
도 8a는 900개의 남태아 테스트 샘플을 사용하고 훈련 샘플의 크기를 증가시킬때 산출된 피어슨 상관관계 분포를 나타내는 그래프이고, 도 8b는 5,000개의 훈련 샘플을 사용하고, 테스트 샘플의 크기를 증가시킬때 산출된 상관관계 분포를 나타내는 그래프이고, 도 8c는 5,000개의 훈련 샘플과 900개의 테스트 샘플을 사용하여 추정한 태아 분획과, Y 염색체 기반의 태아 분획에 대한 상관관계를 나타내는 그래프이다.

이하 본 발명을 실시예를 통하여 보다 상세하게 설명한다. 그러나, 이들 실시예는 본 발명을 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.

실시예 1. 태아 분획의 측정

1. 시료의 준비 및 기준선 태아 분획의 결정

총 5,990명의 임신한 여성(5,945명 남태아 및 45명 여태아)의 혈청 시료를 준비하였다. 수득된 혈청에 대해 반도체 서열분석(semiconductor sequencing)을 수행하였다. 이중 남태아 5,900명에 대한 태아 분획(fetal fraction)은 염색체 Y-기반 방법으로 측정하였다(Hudecova, et al., PLoS One 2014;9(2):e88484). 또한, 임산부 혈청 90명(여태아 45 및 남태아 45명)에 대한 태아 분획은 SNP를 이용하여 측정하였고, 이를 위해 Affymetrix 6.0(약 900K SNP)를 사용하여 유전자형을 분석하였다.

최종적으로 유전자형 분석된 임산부의 SNP 정보와 선형 회귀분석 모델(Y = 18.9X - 6.6)을 이용하여, 태아 분획을 산출하였다. 사용된 선형 회귀분석 모델은 Jiang. P. et al., (2016) FetalQuant^SD: accurate quantification of fetal DNA fraction by shallow-depth sequencing of maternal plasma DNA, npj Genomic Medicine, 1, 16013에 기재된 방법을 사용하였다. 산출된 태아 분획은 기준선(baseline) 태아 분획으로 이용하였다.

2. 통계 분석

데이터 세트를 머신 러닝(machine learning)으로 훈련시켜 최적의 파라미터를 결정하기 위해 다변량 회귀(Multivariate Regression)를 이용하였다. 다변량 회귀 방법을 구현하기 위해, 엘라스틱 네트(elastic net) 방법(Friedman, et al., J Stat Softw 2010;33(1):1-22)을 이용하였다. 엘라스틱 네트 방법은 LASSO(least absolute shrinkage and selection operator)와 리지(ridg)e 방법을 결합한 방식으로 수행 속도가 빠르다.

태아 분획 추정의 정확도를 높이기 위해, 상염색체 중에서 삼염색체(trisomy)의 발생률이 높은 염색체 13, 18, 및 21은 제외하였다. 나머지 19개의 염색체를 각각 일정한 구간의 크기(bin size)로 할당하여 각 구간에서 리드의 개수(read-count) 비율의 특징과 리드의 크기(read-size) 비율의 특징을 추출하여 사용하였다.

구체적으로, DNA 리드를 참조 게놈(reference genome)의 각 염색체에 지정한 후에 하기 식에 따라 국소 가중 평균 산점도 평활(locally weighted scatterplot smoothing: LOWESS) 회귀분석을 수행하여 GC 함량에 의한 편향을 감소시켰다(Kim, et al., BMC medical genomics 2016;9(1):22):

(식 1).

식 1에서, RC _ij 는 시료 i의 상염색체(autosomal chromosome) 구간 j에서 GC 보정된 리드의 개수이며 K는 상염색체(autosomal chromosome)에서 분할한 구간의 최대값이다. Rf _ij' 는 시료 i의 상염색체 구간 j에서 RC _ij 를 정규화(normalized)한 값이다.

한편, 태아 DNA 단편(fragment)의 크기(size)의 분포와 산모의 DNA 단편의 크기의 분포가 서로 다르므로(Yu, et al., Proc Natl Acad Sci U S A 2014;111(23):8583-8588), 상염색체의 각 구간에서 DNA 단편의 크기 비율을 하기 식으로 나타내었다:

리드의 크기 비율(size ratio: SR) = 150 bp보다 작은 DNA 단편의 개수 / 전체 DNA 단편의 개수 (식 2).

이 DNA 단편의 크기 비율을 정규화하기 위해 하기 식을 사용하였다:

(식 3).

식 3에서, SR _ij 는 시료 i의 상염색체 구간 j에서 리드의 크기 비율이고 K는 상염색체(autosomal chromosome)에서 분할한 구간의 최대값이다. Sf _ij' 는 시료 i의 상염색체 구간 j에서 SR _ij 를 정규화한 값이다.

데이터 훈련을 위해 사용되는 다변량 회귀(Multivariate Regression)식은 다음과 같이 나타낼 수 있다:

(식 4).

식 4에서, Y는 염색체 Y를 이용하여 측정한 태아 분획이고, β₀는 절편(intercept)이고, β_1~K는 회귀 계수(regression coefficient)이고, K는 상염색체(autosomal chromosome)에서 분할된 구간의 최대값이다. X _i 는 구간 i에서 리드의 개수 비율 또는 리드의 크기 비율을 정규화한 값(X _i = Rf _ij' 또는 X _i =Sf _ij' )이고, e 는 잔류 표준 편차(residual standard deviation)이다. 식 4에 대한 피팅(fitting)된 예측값은 다음 식으로 나타낼 수 있다:

(식 5).

절편 및 계수를 추정하기 위해 R 패키지에서 10-배 교차 검증(fold cross-validation)을 지원하는 cv.glmnet(Version 2.0-16)를 이용하였다.

3. 시료의 리드 개수에 따른 태아 분획 맞춤 분석의 필요성

SeqFF(Kim et al., Prenatal diagnosis, 2015, vol.35, pp.810-815)는 25,312개의 훈련 데이터를 이용하여 산출한 파라미터를 사용하여 50 kb로 나누어진 일정한 구간에서의 리드의 개수 비율을 입력하면 태아 분획을 계산할 수 있도록 작성된 소프트웨어이다. 실시예 1.1에서 기재된 바와 같이 남태아를 임신한 임산부로부터 얻은 데이터 세트를 사용하였다. 테스트 샘플 크기(test sample size)를 100부터 500까지 증가시키면서 태아 분획을 측정하고, 측정된 태아 분획과 표준 태아 분획(standard fetal fraction)과 비교하여 피어슨 상관관계를 계산하였다. 표준 태아 분획은 Y 염색체를 이용하여 측정한 태아 분획이다. 테스트 샘플 크기에 따른 피어슨 상관관계의 그래프를 도 2에 나타내었다.

도 2에 나타난 바와 같이, 테스트 샘플 크기와 표준 태아 분획 간의 상관관계의 분포는 약 73% 내지 약 81%로 나타났다. 이는 SeqFF 프로그램에서 주장하는 93% 보다 10% 감소한 것으로 나타났다. 이러한 차이의 원인은 시료의 리드 개수의 분포가 서로 다르기 때문이다. 왜냐하면, SeqFF 개발시 사용한 시료의 리드 개수의 중앙값(median)은 17.19백만(M)개(최소=3.82M, 최대=34.7M)이나, 도 2의 시료의 리드 개수의 중앙값(median)은 5.85백만(M)개(최소=3.38M, 최대=12.45M)이기 때문이다.

따라서, 각 시료의 리드 개수의 분포는 서로 다를 것이기 때문에, 각각 그 시료의 리드 개수의 분포에 적합한 파라미터를 개별적으로 다르게 구할 필요가 있다. 또한, 염색체 구간을 50k에 한정하지 않고 각 시료의 리드 개수 분포에 가장 적합한 상염색체 구간을 선정할 필요가 있다.

4. 리드 개수에 의한 최적의 상염색체 구간(bin)의 선정

(1) 리드 개수(Read-count)를 이용한 상관관계 분포

우선, 최적의 상염색체 구간을 선정할 때 상염색체(염색체 13, 18, 및 21은 제외)의 구간에서는 남녀 태아의 차이가 없다고 가정하였다.

무작위로 선정한 1,000개의 남태아 훈련(training) 시료와 117개의 남태아 테스트 샘플을 사용하여 피어슨 상관관계를 산출하였다. 구간의 크기(bin size)에 따른 피어슨 상관관계의 그래프를 도 3에 나타내었다. 도 3에 나타난 바와 같이, 64,000 kb의 구간에서 남태아 테스트 샘플은 약 93.6%의 피어슨 상관관계를 나타내었다.

64,000 kb 구간에서 1,000개의 남태아 훈련 샘플로 훈련시켜 얻은 파라미터를 이용하여, 45개의 여태아 테스트 샘플에 대한 피어슨 상관관계를 산출하였다. 여기서 45개의 여태아 샘플의 태아 분획은 SNP 기반으로 측정되었다. 구간의 크기에 따른 피어슨 상관관계의 그래프를 도 4a에 나타내었다. 도 4a에 나타난 바와 같이, 64,000 kb 구간에서 여태아 테스트 샘플은 약 28%의 피어슨 상관관계를 나타내어, 남태아의 결과와 완전히 다른 결과가 산출되었다. 이를 고려하면, 상염색체의 구간에서 남녀 태아의 차이가 없다는 가정과 달리, 상염색체의 구간에서 남녀태아의 차이가 있는 것으로 판단되었다.

남태아의 상염색체 특정 구역은 남태아의 태아 분획과 상관관계가 큰데 반해서 여태아의 태아 분획과는 상관관계가 적을 수 있을 수 있기 때문에, 이와 같은 편향(bias)를 없애기 위해, 훈련 샘플은 Y-염색체에 기반을 둔 태아 분획을 이용하더라도 테스트 샘플은 여태아 샘플을 사용하여 검증하였다. 여기서 여태아 샘플의 태아 분획은 SNP-기반으로 측정하였다.

남태아 훈련 샘플 1000개와 여태아 테스트 샘플 45개를 이용하여 각각의 상염색체 분할 구간을 다르게 하여 산출한 여태아 분획을 SNP 기반의 표준 태아 분획과 비교한 피어슨 상관관계를 산출하였다. 여기서 남태아 훈련 샘플의 태아 분획은 Y-염색체 기반으로 측정하였고, 여태아 테스트 샘플의 태아 분획은 SNP 기반으로 측정하였다. 45개의 여태아 샘플을 이용하여 테스트했을 때의 다양한 구간에서의 피어슨 상관관계 분포를 도 4a, 4b, 및 4c에 나타내었다. 도 4a 내지 도 4c에 나타난 바와 같이, 300k 구간에서 약 79.6%으로 가장 높은 상관관계를 가졌다.

SeqFF는 상염색체 분할 구간이 50 kb이다. 상염색체 분할 구간이 50 kb인 경우와 300 kb인 태아 분획 측정의 정확도를 비교하기 위해, 훈련 샘플을 2000개에서 5000개로 증가시키고, 염색체 구간의 크기를 50 kb 또는 300 kb로 하여 피어슨 상관관계를 산출하였다. 산출된 결과를 도 5에 나타내었다. 도 5에 나타난 바와 같이, 50 kb 구간에 비해 300kb 구간인 경우, 약 1% 내지 약 5%까지 상관관계가 더 높았다.

(2) 리드 크기(Read-size)를 이용한 상관관계 분포

리드의 크기(read size) 비율에 기반을 두고 태아 분획을 추정하기 위해, 1,000개의 남태아 훈련 샘플과 45개 여태아 테스트 샘플을 이용하여 구간의 크기에 따른 피어슨 상관관계를 산출하였다. 산출된 결과를 도 6에 나타내었다. 도 6에 나타난 바와 같이, 800kb의 구간에서 약 72.5%로 가장 높은 상관관계를 가졌다.

5. 최적의 상염색체 구간(bin)에서 훈련 샘플 크기의 증가에 따른 상관관계

(1) 리드 개수와 리드 크기에 의한 태아 분획 산출

실시예 1.4에 기재된 바와 같이, 1,000개의 남태아 훈련 샘플과 45개의 여태아 테스트 샘플을 이용하여 최적의 염색체 구간을 탐색하였다.

리드 개수(Read-count) 비율을 이용하였을 때는 300 kb 구간이 가장 최적의 피어슨 상관관계가 있었고(도 4c), 리드 크기(read-size) 비율을 이용하였을 때는 800kb 구간이 가장 최적의 피어슨 상관관계를 가졌다(도 6). 이를 고려하여, 훈련 샘플의 수를 증가시키면서 동시에 각각 서로 다른 구간에서 서로 다른 DNA조각의 특징으로 측정된 태아 분획을 결합했을 때의 상관관계 분포를 확인하였다.

상염색체 분할 구간을 300 kb로 한 경우, 45개의 여태아 테스트 샘플을 이용하면서 훈련 샘플의 크기를 증가시킨 경우, 리드 개수(read-count)를 이용하여 계산한 태아 분획, 리드 크기(read size)를 이용하여 계산한 태아 분획, 또는 리드 개수와 크기의 조합인 두 태아 분획 결과의 평균값에 대한 피어슨 상관관계를 산출하였다. 여기서 여태아 테스트 샘플의 태아 분획은 SNP 기반으로 측정하였다. 산출된 결과를 도 7a에 나타내었다. 도 7a에 나타난 바와 같이, 리드 개수와 크기의 조합된 태아 분획의 피어슨 상관관계가 상대적으로 리드 개수 비율만 이용한 것보다 약 4% 이상 높게 나타났다. 5,000개의 남태아 훈련 샘플로 훈련시켜 얻은 파라미터로 45개 여태아 테스트 샘플을 테스트한 경우, 약 89%의 상관관계를 나타내었다.

또한, 45개의 남태아 테스트 샘플을 이용한 경우, 리드 개수를 이용하여 계산한 태아 분획, 리드 크기를 이용하여 계산한 태아 분획, 또는 리드 개수와 크기의 조합인 두 태아 분획 결과의 평균값에 대한 피어슨 상관관계를 산출하였다. 여기서 남태아 테스트 샘플의 태아 분획은 SNP 기반으로 측정하였다. 산출된 결과를 도 7b에 나타내었다. 도 7b에 나타난 바와 같이, 훈련 샘플의 크기를 증가시킴에 따라, 결합된 형태의 태아 분획의 상관관계가 상대적으로 리드 개수 비율만 이용한 것 보다 약 4% 이상 높게 나타났다. 5,000개의 남태아 훈련 샘플로 훈련시켜 얻은 파라미터로 45개 남태아 테스트 샘플을 테스트한 경우, 약 89.7%의 상관관계를 나타내었다.

여태아 테스트 샘플의 태아 분획의 상관관계와 남태아 테스트 샘플의 태아 분획의 상관관계가 유사하므로, 상염색체 분할 구간이 300 kb인 경우 상염색체 각 구간에서 남태아의 특징에 의존되는 편향(bias)은 없는 것으로 확인되었다.

(2) 훈련 샘플 크기와 테스트 샘플 크기에 따른 태아 분획 산출

실시예 1.5(1)에서 기재된 바와 같은 조건에서, 남태아 테스트 샘플의 크기와 훈련 샘플의 크기를 변화시켰을때 태아 분획의 피어슨 상관관계 분포를 산출하였다.

900개의 남태아 테스트 샘플을 사용하고, 훈련 샘플의 크기를 증가시킬때 산출된 피어슨 상관관계를 도 8a에 나타내었다. 도 8a에 나타난 바와 같이, 훈련 샘플을 증가시킴에 따라, 결합된 형태의 태아 분획의 상관관계가 90%이상으로 증가하였다.

5,000개의 훈련 샘플을 사용하고, 테스트 샘플의 크기를 증가시킬때 산출된 상관관계를 도 8b에 나타내었다. 도 8b에 나타난 바와 같이, 모든 샘플에서 상관관계가 약 90% 이상이었다.

5,000개의 훈련 샘플과 900개의 테스트 샘플을 사용하여 추정한 태아 분획과, Y 염색체 기반의 태아 분획에 대한 상관관계를 도 8c에 나타내었다. 도 8c에 나타난 바와 같이, 예측된 태아 분획은 Y 염색체 기반의 태아 분획과 약 91%의 상관관계가 있음을 확인하였다.

Claims

임신한 여성의 생물학적 시료에서 태아 분획(fetal fraction)을 결정하는 방법으로서,
임신한 여성의 생물학적 시료로부터 복수의 핵산 단편의 서열정보(reads)를 수득하여 훈련 데이터 및 테스트 데이터를 생성하는 단계;
참조 염색체를 기준으로 일정한 구간(bin)으로 나눈 염색체 구간을 설정하는 단계;
상기 훈련 데이터로부터 파라미터를 산출하는 단계;
산출된 파라미터를 이용하여 상기 테스트 데이터로부터 태아 분획을 산출하는 단계;
참조 염색체를 기준으로 구간의 크기를 증가시키면서 파라미터를 산출하는 단계 및 태아 분획을 산출하는 단계를 반복하여, 산출된 태아 분획과 표준 태아 분획간의 상관관계가 높은 구간을 선정하는 단계;
선정된 구간에서 훈련 데이터의 크기를 증가시키면서 산출된 태아 분획과 표준 태아 분획간의 상관관계가 증가된 제2 파라미터를 산출하는 단계; 및
산출된 제2 파라미터를 이용하여 상기 테스트 데이터로부터 태아 분획을 산출하는 단계를 포함하는 방법.
청구항 1에 있어서, 상기 생물학적 시료는 혈액, 혈장, 혈청, 소변, 타액, 점막 분비물, 객담, 대변, 눈물, 또는 이들의 조합인 것인 방법.
청구항 1에 있어서, 상기 생물학적 시료는 태아 유래 핵산을 포함하는 것인 방법.
청구항 1에 있어서, 복수의 핵산 단편의 서열정보를 수득하여 테스트 데이터를 생성하는 단계는 생물학적 시료로부터 세포 유리 DNA(cell-free DNA: cfDNA)를 분리하는 단계를 포함하는 것인 방법.
청구항 1에 있어서, 상기 수득된 서열정보의 시퀀싱 커버리지(sequencing coverage)는 0.00001 내지 3.5인 것인 방법.
청구항 1에 있어서, 상기 구간은 5 kb 내지 260,000 kb인 것인 방법.
청구항 1에 있어서, 훈련 데이터와 테스트 데이터는 동일한 성별의 태아 시료이거나, 또는 다른 성별의 태아 시료로부터 유래된 서열정보인 것인 방법.
청구항 1에서, 상기 파라미터는 리드 개수(read-count), 리드 크기(read size), 또는 이들의 조합인 것인 방법.
청구항 1에서, 훈련 데이터로부터 파라미터를 산출하는 단계는 기계 학습(machine learning) 방법에 의해 훈련 데이터를 훈련시키는 것인 방법.
청구항 9에서, 훈련 데이터를 훈련시키는 것은 다변량 회귀(Multivariat Regression) 모델, 심층 학습(deep learning) 알고리즘, 또는 이들의 조합으로 수행되는 것인 방법.
청구항 10에서, R 팩키지 cv.glmnet, Tensorflow, 또는 이들의 조합의 오픈 소스 소프트웨어 라이브러리(open-source software library)를 이용하여 수행되는 것인 방법.
청구항 1에서, 훈련 데이터로부터 파라미터를 산출하는 단계는
훈련 데이터의 태아 분획을 측정하는 단계; 및
측정된 태아 분획으로부터 파라미터를 산출하는 단계를 포함하는 것인 방법.
청구항 1에서, 훈련 데이터로부터 파라미터를 산출하는 단계는
하기 다변량 회귀(Multivariate Regression) 식에 따라 산출되는 것인 방법:

.
상기 식에서,
Y는 여태아인 경우 SNP-기반으로 측정한 태아 분획이고, 남태아인 경우 SNP-기반 또는 염색체 Y를 이용하여 측정한 태아 분획이고,
β₀는 절편(intercept)이고,
β_1~K는 회귀 계수(regression coefficient)이고,
K는 상염색체(autosomal chromosome)의 염색체 구간의 최대값이고,
X_i는 구간 i에서 리드 개수 비율 또는 리드 크기 비율을 정규화한 값이고,
e는 잔류 표준 편차(residual standard deviation)이다.
청구항 1에서, 상기 태아 분획은 리드 개수를 이용하여 산출된 태아 분획과 리드 크기를 이용하여 산출된 태아 분획의 평균값인 방법.
임신한 여성의 생물학적 시료에서 태아 분획을 결정하는 방법으로서,
임신한 여성의 생물학적 시료로부터 복수의 핵산 단편의 서열정보를 수득하여 테스트 데이터를 생성하는 단계;
참조 염색체를 기준으로 100 kb 내지 900 Kb의 염색체 구간을 설정하는 단계;
훈련 데이터로부터 파라미터로서 리드 개수, 리드 크기, 또는 이들의 조합을 산출하는 단계; 및
산출된 파라미터를 이용하여 상기 테스트 데이터로부터 태아 분획을 산출하는 단계를 포함하는 방법.
청구항 1 내지 15 중 어느 한 항에 따른 방법을 수행하기 위해 적용되는 프로그램을 기록한 컴퓨터 판독 매체.